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前 言 


许久 以 前 ， 我 有 编写 此 书 的 想法 。 只 是 当时 忙于 各 样 的 工程 ， 没 有 时 间 。 后 来 发 现 所 谓 
没有 时 间 不 过 是 一 个 美丽 的 谎言 罢了 。 两 年 前 的 一 天 ， 我 重 拾 昔日 的 念头 ， 坚 持 下 来 ， 就 有 
了 这 本 书 。 

我 最 早 于 1997 年 接触 UNIX， 并 断断续续 做 了 一 些 与 UNIX 有 关 的 项 目 ， 至 今 难忘 当 
时 分 析 OSF 4.0D 文件 系统 的 日 日 夜 夜 ， 也 难忘 曾经 给 予 我 帮助 的 朋友 们 。 我 与 Linux 的 第 
一 次 接触 是 在 1998 年 ， 当 时 对 这 个 操作 系统 噬 之 以 鼻 。UNIX 主要 分 为 两 个 流派 : BSD 和 
SYS V。 我 是 BSD 的 积极 拥护 者 ， 认 为 Linux 不 过 是 几 个 学 生 的 玩具 婴 了 。 在 2000 年 末 ， 
我 开始 真正 学 习 并 使 用 Linux 系统 。 当 时 需要 做 一 个 与 Intel StrongARM 相关 的 项 目 ，Linux 
锌 事先 选 定 。 我 虽 不 喜欢 Linux， 但 也 无 奈 ， 就 此 开始 了 对 Linux 的 研究 。 

那 时 俩 究 开发 Linux 并 不 是 一 件 容易 的 事情 ， 采 用 的 基本 方法 是 从 Internet 上 搜集 只 言 
片 语 ， 再 与 Linux 源 代 码 对 照 。 采 用 此 方法 的 好 处 是 能 够 体会 到 梅花 香 自 苦寒 来 的 道理 。 时 
过 境 迁 ，Linux 与 当年 的 版 本 不 可 同日 而 语 。 现 在 国内 外 有 许多 基于 奔腾 处 理 器 的 Linux 书 
籍 ， 但 是 鲜 有 基于 PowerPC 处 理 器 的 Linux 书籍 。 我 愿 先行 一 步 ， 以 抛砖引玉 。 

笔者 写作 此 书 的 原意 是 想 用 朴素 的 语言 描述 一 款 处 理 器 和 在 其 上 运行 的 操作 系统 ， 最 终 
选择 了 PowerPC 作为 处 理 器 ，Linux 作为 操作 系统 。 这 一 选择 并 非 偶然 ， 也 并 非 因为 笔者 对 
PowerPC 处 理 能 和 Linux 更 为 熟悉 。 在 激烈 的 竞争 和 日 新 月 异 的 技术 更 新 过 程 中 ， 各 个 流派 
的 操作 系统 与 各 种 类 型 的 处 理 器 ， 其 体系 结构 趋同 。 读 者 真正 掌握 了 一 种 操作 系统 和 一 款 处 
理 融 绪 构 后 ， 理 解 其 他 操作 系统 和 处 理 器 是 水 到 渠 成 的 。PowerPC 与 其 他 处 理 器 相 比 ， 其 
体系 结构 相对 开放 。Linux 更 是 公开 了 所 有 源 代码 。 两 个 开放 的 系统 最 终 走 到 一 起 ， 是 自然 
的 选择 。 

本 书 分 为 两 大 部 分 ， 由 8 章 组 成 。 第 1 章 至 第 4 章 是 第 一 部 分 ， 第 1 章 概括 了 Linux 系 
统 的 现状 ; 第 2、3 章 重 点 描述 了 PowerPC 的 一 些 基 础 知识 ， 包 括 PowerPC 的 指令 集 、 寄 存 
第 和 内 存 体系 结构 ; 第 4 章 讲述 了 一 款 PowerPC 处 理 器 实例 。 第 一 部 分 的 内 容 是 学 习 第 二 
部 分 内 容 的 基础 。 第 二 部 分 由 第 5 章 至 第 8 章 组 成 ， 第 5 章 至 第 7 章 讲述 了 Linux PowerPC 
的 三 大 模块 ， 进 程 管理 与 调度 、 中 断 与 异常 的 处 理 及 内 存 管理 机 制 ; 第 8 章 介 绍 Linux 
PowerPC 的 初始 化 。 第 二 部 分 内 容 互 相交 织 ， 可 能 读者 在 通读 本 书后 ， 才 能 够 理解 这 些 内 
容 。 本 书 的 有 些 内 容 与 具体 实现 细节 相关 ， 而 且 这 些 细节 并 没有 完全 在 本 书 中 讲述 清楚 ， 这 
要 求 读 者 必须 对 照 Linux 源 代码 ， 深 入 了 解 这 些 细 节 。 

几 过 分 拘 记 细节 的 书籍 必 非 入 门 书 。 本 书 也 不 是 Linux 系统 的 入门 书籍 。 笔 者 不 是 不 想 
号 入 门 书籍 ， 而 是 没有 这 个 能 力 。 入 门 者 对 新 事物 往往 没有 分 辨 能力 ， 于 是 非 大 师 不 写 入 门 
书籍 。 灵 怕 只 有 大 师 级 的 人 物 才 能 够 合理 地 避重就轻 ， 写 出 适合 初学 者 的 书籍 。 

本 书 不 是 入 门 书 ， 又 是 什么 ?对 于 这 个 问题 ， 我 在 两 年 前 有 一 个 很 清晰 的 答案 。 著 书 必 
求 传 谓 。 在 写 书 的 过 程 中 ， 我 陆续 复习 着 一 些 经 典 之 作 ， 有 些 书 看 了 不 下 十 几 遍 ， 也 由 此 明 
日 能 让 读者 反复 阅读 ， 而 且 每 次 阅读 都 有 新 收获 的 ， 就 是 经 典 书 籍 。 即 便 这 些 书 籍 被 束 之 高 
赂 ， 也 不 能 遮挡 它们 的 光芒 。 

明白 何 为 经 典 的 道理 后 ， 我 仍 在 坚持 写 完 这 本 书 ， 也 曾 有 几 次 想 过 放弃 ， 于 是 在 桌 旁 反 

中 


复写 着 “也 许 世 界 上 最 容易 的 事情 莫 过 于 放弃 ”这 样 的 文字 。 在 “坚持 ， 不 放弃 ”的 过 程 
中 ， 我 依然 以 为 这 本 书 不 会 成 为 经 典 也 至 少 可 以 会 对 人 有 益 ， 倘 若 真 的 如 此 也 足以 令 我 
欣 感 。 

在 今年 的 某 一 天 ， 我 完成 了 本 书 的 主体 ， 并 在 剩余 时 间 里 ， 反 复 修 改 本 书 ， 包 括 文字 的 
调整 ， 错 误 的 修正 等 。 发 现 Bug 的 数目 与 修改 时 间 成 正比 ， 似 乎 书 中 的 Bug 无 穷 无 尽 ， 而 
唯一 能 够 消除 这 些 Bug 的 方法 就 是 停止 这 些 修改 ,将 这 本 书 奉献 给 大 家 ， 这 也 是 本 书 被 催 
熟 的 原因 。 

完稿 之 余 ， 不 胜 您 懂 ， 本 书 虽 经 李 阳 ， 吴 晓 川 及 北京 的 其 他 同事 认真 讨论 和 细致 校对 ， 
我 仍 日 夜 居 居 ， 害 怕 本 书 带 给 读者 更 多 的 是 误导 。 忍 慌 已 极 ， 我 明白 了 一 个 道理 ， 凡 书 必 有 
错误 ， 有 人 用 心 去 谈 ， 必 会 引发 一 些 争 议 ， 写 书 无 法 苛求 永 不 犯错 ， 重 要 的 是 及 时 改正 。 

如 果 读 者 对 此 书 有 批评 ， 我 将 在 sailing.w@gmail.com 中 接受 你 们 的 批评 ;如果 有 争 
议 ， 我 将 在 www .zh-kernel.org 等 待 你 们 的 争议 ， 读 者 可 以 订阅 这 个 网 站 的 Linux-kernel 邮 
件 ， 然 后 E-mail 给 邮件 列表 中 的 所 有 成 员 。 

最 后 感谢 的 是 我 新 婚 的 妻子 范 淑琴 女士 。 我 们 相爱 十 余 载 ， 去 年 结婚 ， 正 是 本 书写 作 的 
关键 时 期 。 那 时 我 送 给 她 的 最 大 礼物 莫 过 于 心中 默念 了 几 遍 “ 执 子 之 手 ， 与 子 借 老 ”。 相 知 
十 年 ， 珍 少 离 多 ， 我 鲜 有 机 会 送 她 一 份 像样 的 礼物 ， 谨 将 此 书 奉献 给 她 。 没 有 她 ， 将 不 会 有 
这 本 书 。 


作 者 
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第 1 全 什么 是 胶 人 人 式 Linux 


许多 工程 师 对 通信 式 Linux 这 一 称呼 感到 陌生 ,他 们 认为 产生 这 一 称呼 的 主要 原因 是 这 
些 Linux 系统 运行 在 “所 谓 的 ” 般 入 式 处 理 器 之 上 ,于 是 产生 了 基于 ARM 处 理 器 的 圣人 式 
Linux 系统 ,基于 MIPS 处 理 器 的 伐 人 式 Linux 系统 和 基于 PowerPC 处 理 器 的 氛 入 式 Linux 
系统 。 

对 通信 式 Linux 的 这 种 解释 似乎 十 分 合理 ,但 是 也 许 还 会 有 人 继续 深究 ,提出 另外 一 个 问 
题 ,究竟 什么 叫做 骨 入 式 处 理 器 ? 在 处 理 器 刚刚 诞生 时 ,没有 人 称 哪 一 类 处 理 器 为 戏 入 式 ; 在 
个 人 PC 诞生 前 夜 ,也 没有 哪 一 类 处 理 器 被 冠 以 租 入 式 的 名 号 。 至 少 当年 Motorola( 现 在 的 
Freescale 半导体 ) 的 68K 系列 处 理 器 与 Intel 的 8086 处 理 器 争夺 个 人 PC 处 理 器 候选 资格 时 ， 
没有 人 将 68K 系列 的 处 理 器 归 类 为 符 入 式 处 理 器 ,虽然 目前 68K 系列 的 处 理 器 几乎 被 认为 是 
岁入 式 处 理 器 中 的 典范 与 鼻祖 。 

毁 入 式 处 理 器 这 一 称呼 始 于 20 世纪 90 年 代 中 期 , 那 时 摩尔 定律 一 次 又 一 次 地 得 到 验证 ， 
Intel 与 Microsoft 一 起 迎接 了 一 次 又 一 次 的 辉煌 。 其 他 的 处 理 器 ,及 运行 在 其 上 的 操作 系统 被 
Wintel 笼罩, 显得 愈 发 式微 。 

在 这 一 大 背景 之 下 ,组 入 式 这 个 概念 从 各 个 主流 处 理 器 厂商 的 市 场 人 员 中 产生 。 不 仅 各 
种 各 样 的 处 理 器 被 冠 以 府 和 人 式 的 头衔 , 连 许 多 DSP 芯片 也 被 称 为 伐 入 式 DSP。 至 今 , 柚 入 式 
的 概念 也 已 经 十 分 模糊 了 ,似乎 嵌 人 式 无 处 不 在 。 

”但 是 经 过 稍微 仔细 的 分 析 后 ,我 们 可 以 发 现 ,除了 在 服务 器 中 使 用 的 处 理 器 和 Pentium 处 
理 此 外 ,其 他 的 所 有 处 理 器 都 被 称 为 艇 人 式 处 理 器 。 许 多 人 认为 ,工业 控制 上 采用 的 8Z16 位 
单片机 ,手机 上 使 用 的 ARM 处 理 器 ,在 电信 和 领域 得 到 广泛 应 用 的 PowerPC 处 理 器 ,甚至 DSP 
处 理 需 都 是 属于 散人 式 的 。 起 码 这 些 处 理 器 都 符合 能 人 式 处 理 器 的 典型 定义 , 易 裁 剪 ,面向 
应 用 。 


1.1 胡 入 式 Linux 概述 


所 谓 甬 人 式 Linux 不 过 是 标准 Linux 发 布 包 (Linux Distribution) 在 不 同 种 类 处 理 器 上 的 
应 用 。 这 些 应 用 包括 Linux Distribution for PowerPC( 基 于 PowerPC 处 理 器 的 Linux 系统 ) , 基 
于 ARM 处 理 融 的 Linux 系统 ,基于 奔腾 处 理 器 的 Linux 系统 和 基于 MIPS 处 理 器 的 Linux 系 
统 。 这 些 Linux 的 内 核 都 来 自 www.kernel.org。 

， Linux 系统 中 ,还 有 一 种 被 称 为 uClinux 的 一 个 Linux 系统 分 支 ,uClinux 源 于 Linux 系统 ， 
但 是 uCLinux 只 支持 没有 MMU(Memory Management Unit) 的 处 理 器 ,如 Freescale 半导体 的 
某 些 Corefire 处 理 器 和 Samsung 公司 的 一 些 低 端 ARM 处 理 器 。 

最 初 uClinux 由 Lineo 公司 开发 并 维护 ,后 来 Lineo 公司 被 一 家 软件 公司 Metrowerks 收 
购 ,Metrowerks 又 被 Motorola 收购 ,并 随 着 Freescale 与 Motorola 分 离 而 分 离 。 在 这 一 系列 的 
分 离 收 购 过 程 中 ,也 伴随 着 一 些 优秀 工程 师 的 离 去 。 这 些 离 去 者 依然 坚守 着 uClinux 阵营 , 因 
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此 我 们 现在 仍然 可 以 在 www.uClinux.org 中 看 到 有 关 uClinux 的 最 新 更 新 与 发 展 。 目 前 
Linux 2.6 内 核 已 经 可 以 支持 没有 MMU 的 处 理 器 ,uClinux 这 一 分 支 也 许 很 快 就 会 消失 。 

大 多 数 使 用 过 Linux 系统 的 用 户 是 从 基于 奔腾 处 理 器 的 Linux 系统 开始 。Linux 系统 中 
的 绝 大 部 分 源 代码 都 是 与 体系 结构 无 关 的 ,因此 运行 在 其 他 处 理 器 上 的 Linux 系统 和 在 奔腾 
处 理 硕 上 运行 的 Linux 并 没有 本 质 上 的 不 同 。 程 序 员 如 果 掌 握 了 基于 奔腾 处 理 器 的 Linux 系 
统 , 对 于 学 习 基 于 其 他 处 理 器 的 Linux 系统 十 分 有 帮助 。 

任何 一 个 Linux 系统 都 是 运行 在 一 个 处 理 器 系统 中 的 。 一 个 典型 的 处 理 器 系统 一 般 包含 
一 个 或 者 多 个 处 理 器 ,存放 数据 或 者 程序 的 内 部 存储 器 ,保存 程序 或 者 数据 的 非 易 失 的 外 部 存 
储 上 器, 和 一 些 外 部 设备 ,如 以 太 网 口 和 串 行 口 。 

一 般 来 说 ,在 工业 控制 领域 和 电信 和 领域 中 使 用 的 处 理 器 系统 所 具有 的 硬件 资源 与 奔腾 处 
理 夷 系统 相 比较 少 。 在 多 数 情况 下 ,这 些 处 理 器 系统 中 并 没有 硬盘 ,因此 也 不 存在 对 换 区 。 运 
行 在 这 类 处 理 器 系统 中 的 Linux 系统 只 有 相对 较 小 的 内 部 和 外 部 存储 器 。 因 此 系统 设计 者 需 
要 对 这 类 Linux 系统 进行 裁剪 ,但 无 论 如 何 裁剪 , 仍 五 脏 俱全 。 一 个 典型 的 Linux 系统 由 以 下 
内 容 组 成 : 

e@ 引导 程序 (Boot Loader)。 常 用 的 引导 程序 有 Lilo, Grub, Redboot, Yaboot 和 U-Boot, 其 

中 Lilo 和 Grub 多 用 在 基于 奔腾 处 理 器 的 Linux 系统 中 ;Redboot 主要 用 在 基于 ARM 
处 理事 的 Linux 系统 中 ;而 Yaboot 和 U-Boot 分 别 用 在 IBM 的 PowerPC 处 理 器 和 
Freescale 的 PowerPC 处 理 器 中 。 

@ Linux 内 核 映 像 。Linux 内 核 映像 中 主要 包括 进程 调度 ,内 存 管 理 ,中 断 /异常 处 理 系 
统 , 网 络 系 统 ,文件 系统 ,外 部 设备 驱动 系统 等 。 用 户 可 以 根据 需要 对 Linux 内 核 的 这 
些 子 系统 进行 裁剪 。 一 般 来 说 ,Linux 内 核 映像 被 压缩 存储 在 处 理 器 系统 中 。 

e@ 根 文件 系统 映像 。 大 多 数 应 用 都 需要 一 个 根 文件 系统 用 来 保存 用 户 程序 ,此 外 在 根 文 
件 系统 中 还 存放 着 一 些 与 系统 资源 有 关 的 文件 。 

与 基于 奔腾 处 理 器 的 Linux 系统 相 比 ,基于 其 他 处 理 器 的 Linux 系统 的 基本 模块 并 没有 
本 质 的 不 同 。 只 是 在 基于 其 他 处 理 器 的 Linux 系统 中 ,对 Linux 内 核 引 导 时 需要 根据 体系 结 
构 的 特点 进行 初始 化 。 有 些 与 处 理 器 系统 相关 的 资源 如 MMU 中 断 、 系统 调用 等 ,必须 根据 
自身 系统 的 特点 进行 处 理 。 

Linux 系统 的 开发 维护 者 将 与 处 理 器 体系 结构 有 关 的 源 代 码 全 部 放 和 人 . /arch 目录 ,并 与 
其 他 代码 相对 独立 。 在 . /arch 目录 中 有 许多 子 目 录 , 如 alpha, arm,PowerPC, mips 等 等 。 这 
些 子 目录 分 别 与 基于 Alpha 人 处理 器 、 基 于 ARM 处 理 器 、 基 于 PowerPC 和 基于 MIPS 处 理 器 的 
Linux 系统 对 应 。 本 书 主要 介绍 基于 PowerPC 处 理 器 的 Linux 系统 ,并 将 此 简称 为 Linux 
PowerPC。 


1.2 什么 是 Linux BSP 


BSP 是 Board Support Package 的 缩写 。BSP 这 个 概念 首先 出 现在 Windriver 的 Vxworks 
系统 中 ,BSP 用 于 描述 处 理 器 硬件 信息 并 将 这 些 信 息 传 递 给 操作 系统 ,在 BSP 中 还 包含 一 些 
基本 的 设备 驱动 程序 。 通 过 修改 BSP ,系统 程序 员 可 以 使 Vxworks 系统 运行 在 不 同 种 类 的 处 
理 器 系统 中 。 程 序 员 在 编写 Vxworks 系统 的 BSP 时 一 般 要 遵循 某 种 处 理 器 系统 的 BSP 格 
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式 , 大 多 数 BSP 的 开发 工作 会 在 某 一 个 成 型 的 BSP 的 基础 上 进行 。 

一 般 来 说 ,BSP 是 针对 某 个 特定 的 处 理 器 的 ,Windriver 会 提供 一 些 针对 某 些 处 理 器 系统 
的 BSP, 如 BSP for MPC8272ADS 板 , BSP for MPC8560ADS 板 , BSP for MPC8555CDS 板 等 
等 ,MPC8272ADS,MPC8560ADS 板 和 MPC8555CDS 板 是 Freescale 针对 不 同 种 类 处 理 器 开发 
的 评 佑 板 。 

然而 ,在 许多 书籍 和 文章 中 还 出 现 了 Linux BSP 这 个 概念 。 这 个 概念 在 诞生 之 时 就 引发 
了 诸多 争执 。 许 多 Linux 系统 的 开发 者 至 今 也 不 承认 有 Linux BSP 的 存在 ,他 们 认为 所 谓 的 
Linux BSP 只 是 借用 了 Vxworks 系统 中 BSP 的 概念 ,把 Linux 系统 中 与 处 理 器 相关 的 代码 进 
行 抽 象 ,并 将 Linux 系统 的 初始 化 代码 (head.S 文件 )、 体 系 结构 初始 化 代码 (setup _arch 函 
数 ) 与 一 些 设备 驱动 程序 的 开发 工作 统称 为 Linux BSP 的 开发 。 

与 Vxworks 系统 不 同 , Linux 系统 中 所 谓 的 BSP 与 Linux 发 布 包 之 间 并 不 容易 分 割 ， 
Linux 系统 也 并 没有 专门 的 接口 用 来 开发 所 谓 的 Linux BSP。 这 也 是 许多 Linux 系统 工程 师 
不 承认 有 Linux BSP 的 主要 原因 。 

对 不 同 的 PowerPC 处 理 器 ,Linux PowerPC 的 实现 大 体 相 同 。Linux PowerPC 将 与 各 类 
PowerPC 处 理 需 有 关 的 代码 放 在 . /arch/powerpc/platforms 目录 中 。 如 与 MPC8555CDS 板 有 
关 的 代码 存放 在 . /arch/powerpc/platforms/85xx 目录 的 mpc85xx _ cds.c 和 mpc85xx _ cds.h 
文件 中 , 与 MPC8272ADS 板 有 关 的 代码 存放 在 ./arch/powerpc/platforms/85xx 目录 的 
mpc82xx _ ads.c 文件 中 。 此 外 ,在 . /arch/powerpc 的 其 他 子 目 录 中 还 包含 一 些 与 处 理 器 内 核 
有 关 的 一 些 代码 。 这 些 代码 共同 组 成 了 所 谓 的 MPC8555CDS 板 的 Linux BSP。 


1.3 Linux 系统 的 相关 标准 


Linux 的 紫 末 源 于 商业 和 技术 的 需求 。 许 多 人 认为 一 个 源 代码 公开 而 且 免 费 的 操作 系统 
可 以 市 约 人 力 及 物力 成 本 ,何况 这 个 免费 源 代码 的 操作 系统 还 有 许多 人 在 维护 和 发 展 。 

还 有 许多 人 认为 源 代码 开放 的 操作 系统 会 为 整个 项 目 带 来 更 高 的 可 靠 性 、 可 维护 性 ,并 可 
以 提高 效率 ,至 少 他 们 在 发 现 自己 某 些 设备 驱动 程序 的 缺陷 或 者 效率 低下 时 ,可 以 参照 Linux 
系统 中 的 源 代码 进行 改进 ,也 许 这 些 源 代码 会 帮助 程序 员 查 找到 一 些 蛛 丝 马 迹 。 但 是 这 里 需 
要 提醒 程序 员 注 意 ,在 Linux 系统 中 进行 开发 时 ,需要 遵循 一 些 基 本 原则 。 


1.3.1 GPL 与 LGPL 


GPL 是 General Public License 的 缩写 ,而 LGPL 是 GNU Lesser General Public License 的 
缩写 ,其 中 GNU 是 GNU’s not UNIX 的 递归 缩写 。 

GPL 与 Copyleft( 非 谨 利 版 权 ) 组 成 了 自由 软件 的 发 展 基石 。GPL 和 LGPL 的 原文 在 以 下 
网 址 : 

http: //www .gnu.org/copyleft/gpl. html 

http: //www. gnu.org/copyleft/lesser. html 

http: //www .linux. org. tw/CLDP/OLD/doc/GPL.. html 

http: A//www. linux.org. tw/CLDP/OLD/doc/LGPL. html 

GPL 赋予 每 个 使 用 者 使 用 、 修改 和 复制 Linux 源 代码 的 权利 的 同时 ,也 传递 了 使 用 基于 
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GPL 软件 时 的 义务 。 创 建 GPL 的 目的 是 反对 所 谓 的 版 权 ,但 GPL 同时 依靠 版 权 法 和 相关 的 
游戏 规则 来 保证 自由 软件 的 发 布 与 共享 。GPL 是 特别 强调 版 权 的 。GPL 首先 要 求 在 其 下 发 
布 的 程序 要 有 “版 权 说 明 ”; 之 后 是 著名 的 “自由 软件 声明 ”; 然 后 声明 本 程序 的 作者 对 此 程序 不 
做 担保 ;最 后 通知 大 家 ,您 已 经 随 这 份 程序 收 到 了 GPL.。 

GPL 赋予 使 用 者 复制 \ 传 播 和 修改 自由 软件 的 权利 ,并 向 使 用 者 免费 提供 自由 软件 的 源 
程序 。 为 此 ,您 只 需要 做 两 件 事 情 , 一 是 标明 版 权 声明 和 无 担保 声明 ,二 是 继续 传递 GPL 给 接 
收 者 。GPL 要 求 使 用 者 原封 不 动 地 将 GPL 连同 基于 GPL 的 源 代码 一 并 进行 复制 .传播 ;GPL 
严格 限定 目 由 软件 转化 为 “ 专 有 权 (proprietary)” 的 可 能 性 ,并 对 自由 软件 可 能 受到 的 “ 专 有 权 ” 
威胁 进行 了 约定 , 即 任何 基于 GPL“ 专 有 权 ” 的 软件 必须 保障 每 个 人 可 自由 使 用 这 些 代码 而 无 
需 授权 。 

简单 地 说 ,GPL 的 主要 目的 是 首先 声称 自己 是 有 “ 专 有 权 ” 特 性 的 ,这 个 “ 专 有 权 ” 需 要 保 
证 基于 GPL 的 软件 不 能 成 为 具有 “ 专 有 权 ” 特 性 的 软件 。GPL 是 一 个 利用 版 权 法 强调 的 “ 专 
有 权 ” 对 版 权 法 所 保护 的 “ 专 有 权 ” 进 行 打击 的 协议 。 而 GNU/Linux 的 成 功 也 证 明了 GPL 的 
成 功 。 

LGPL 是 针对 函数 库 的 条 款 。 不 同 于 GPL, 它 的 感染 性 并 不 十 分 强 。LGPL 最 初 被 称 为 
GNU library General Public License。LGPL 是 针对 函数 库 而 设计 的 授权 条 款 , 并 弱化 了 GPL 
所 追求 的 软件 自由 。LGPL 采取 了 一 种 务实 的 推广 态度 ,并 提供 了 比 GPL 更 加 商业 友善 的 共 
享 方 式 。LGPL 首先 要 求 划 分 “基于 函数 库 ” 和 “使 用 函数 库 ” 的 区 别 。 基 于 函数 库 是 指使 用 基 
于 LGPL 销 数 库 的 程序 ,此 类 程序 将 被 LGPL 感染 成 为 新 的 LGPL 函数 库 。 而 “使 用 函数 库 ” 
是 指 简单 利用 或 微量 取 用 LGPL 函数 库 的 程序 ,如 使 用 这 些 库 内 定义 的 头 文件 或 内 联 函 数 ,这 
些 程序 不 被 LGPL 所 感染 。 

以 上 规定 仅 是 有 关 LGPL 的 大 概 解 释 , 详 细 的 分 别 需 视 情 况 而 定 。 

Linux 系统 是 也 是 基于 GPL 的 。GNU 使 Linux 一 夜 之 间 获 得 了 可 以 和 任何 商业 UNIX 
抗衡 的 所 有 软件 ,如 TooL-Chain, 图形 界面 及 各 种 各 样 的 应 用 程序 ,也 正 是 因为 GNU 对 Linux 
系统 的 巨大 推动 作用 ,因此 GNU 软件 的 创始 人 Richard Stallman 一 再 建议 大 家 “要 把 Linux 系 
统称 为 GNU/Linux 系统 ”。 


1.3.2 有 关 Linux 系统 的 规范 


十 年 前 有 许多 UNIX 流派 ,如 OSF, Saloris, SCO, HP-UX, AIX 等 。 当 时 几乎 没有 人 认为 
Windows( 当时 Win95 刚刚 问世 不 久 ) 会 大 举 进 入 服务 器 市 场 , 当然 这 个 结论 到 现在 也 是 正确 
的 。 也 没有 太 多 人 过 于 在 意 Linux 这 个 没有 任何 担保 的 操作 系统 。 当 时 摆 在 UNIX 程序 员 面 
前 的 一 个 巨大 难题 是 ,UNIX 程序 员 必 须要 针对 不 同 种 类 的 UNIX 分 别 编写 出 不 同 版 本 的 程 
序 。 当 时 不 同 UNIX 系统 间 的 应 用 程序 在 源 代码 级 都 不 能 做 到 互相 兼容 ,程序 员 编 写 基于 
OSF 或 者 Saloris 系统 的 应 用 程序 时 ,或 者 需要 为 不 同 的 操作 系统 单独 书写 程序 ,或 者 需要 在 
这 些 程序 中 进行 某 些 兼容 性 处 理 , 以 使 得 这 些 程序 可 以 在 不 同 的 UNIX 系统 中 编译 。 

UNIX 系统 产生 的 目的 是 为 用 户 提供 一 个 标准 化 和 开放 性 操作 系统 ,但 是 后 来 却 逐 步 演 
变 成 新 的 专属 操作 系统 ,这 也 制造 了 一 场 漫长 持久 与 猛烈 的 “UNIX 大 战 ”, 当时 不 同 版 本 的 
UNIX 可 谓 是 百花 齐 放 , 百家争鸣 。 这 场 战 争 至 今 尚 未 结束 ,只 是 参加 “UNIX 大 战 ”" 的 斗士 们 
突然 发 现在 旷日持久 的 战斗 期 间 ,Microsoft 大 踏步 地 奔 向 银行 并 很 快 成 为 首富 ,Linux 系统 也 

4 


利用 了 他 们 的 战争 衍生 物 POSIX 迅速 成 长 ,迅速 普及 。 这 一 切 使 得 在 技术 层面 上 有 关 Linux 
系统 和 UNIX 系统 熟 优 熟 劣 的 讨论 变 得 没有 价值 。 至 今 最 令 人 惊奇 的 不 是 Linux 系统 的 发 展 
壮大 ,而 是 还 有 些 UNIX 系统 依旧 活着 。 在 可 以 预料 的 将 来 , Linux 必然 会 进一步 壮大 ,可 以 
阻止 这 一 进程 的 只 有 Linux 自己 。 

Linux 系统 的 发 布 者 吸取 了 UNIX 的 发 展 教训 ,及 时 地 公布 了 一 系列 的 标准 ,并 要 求 系统 
程序 员 在 书写 程序 时 严格 按照 这 些 标准 执行 。 

(1) LSB 标准 。LSB 标准 (Linux Standard Base) 的 设计 目标 是 为 了 提高 Linux 系统 发 布 
版 本 之 间 的 兼容 性 。LSB 标准 由 FSG(Free Standard Group) 开 发 和 维护 ,LSB 标准 由 与 体系 
结构 相关 的 设计 文档 测试 软件 包 、 二进制 接口 标准 ABI(application binary interface)、 各 种 实 
施 细 区 等 一 系列 文档 组 成 。 

LSB 标准 的 设计 目标 是 使 应 用 程序 在 任何 Linux 发 布 版 上 运行 。FSG 董事 会 成 员 Dirk 
Hohndel 预测 ,尽管 LSB 标准 的 目标 不 是 建立 一 种 单一 的 Linux 操作 系统 ,但 它 将 提供 一 个 环 
境 , 在 这 个 环境 中 ,所 有 基于 LSB 标准 的 各 种 Linux 发 布 版 本 可 以 相互 兼容 ,这 使 得 使 用 
Linux 系统 的 用 户 可 以 在 所 有 的 Linux 系统 中 使 用 支持 LSB 标准 的 应 用 软件 。 

有 关 LSB 标准 的 详细 资料 可 参见 以 下 网 址 : 

http: //sb. freestandards.org/~ mats/lsbspec-3.1rcl /specs. php 

(2) POSIX(Portable Operating System Interface) 标 准 。POSIX 标准 由 IEEE 和 ISO/EC 

共同 开发 。POSIX 标准 的 提出 是 为 了 提高 UNIX 环境 下 应 用 程序 的 可 移植 性 。 然 而 POSIX 
标准 并 不 局 限于 UNIX, 许 多 其 他 的 操作 系统 ,如 Windows,Vxworks 也 支持 这 个 标准 。 

POSIX 标准 规定 了 各 个 操作 系统 需要 共同 实现 的 接口 标准 ,从 而 便于 应 用 程序 在 源 代 码 
一 级 上 的 移植 。 

1991 一 1993 年 , Linux 系统 刚刚 起 步 , 此 时 POSIX 标准 正 处 在 最 后 的 定稿 阶段 。 因 此 
Linux 系统 日 然而 然 地 选择 了 POSIX 标准 。POSIX 标准 为 Linux 系统 提供 了 极为 重要 的 帮 
助 ,使 得 Linux 系统 中 的 应 用 程序 能 够 与 绝 大 多 数 UNIX 系统 的 应 用 程序 兼容 。 

最 初 的 Linux 内 核 代码 (0.01 版 .0.11 版 ) 就 已 经 为 Linux 与 POSIX 标准 的 兼容 做 好 了 
准备 ,Linux 在 发 展 初期 就 想 实 现 与 POSIX 的 兼容 。 从 Linux 的 发 展 进 程 也 可 以 看 出 ，Linux 
的 成 长 一 直 有 POSIX 标准 的 辅佐 ,没有 POSIX 的 指导 ,就 不 会 有 Linux 的 今天 。 

目前 POSIX 标准 已 经 被 国际 标准 化 组 织 ISO(International Standard Organization ) 所 接 

受 ,被 命名 为 ISO/AIEC 9945-1: 1990 标准 。 读 者 可 以 在 以 下 网 址 中 ,进行 免费 注册 ,然后 阅读 
此 规范 : 

http: A//www. unix.org/version3 /online. html 

(3) OSDL(Open Source Development Lab) 标 准 系 列 。OSDL 支持 的 标准 中 最 为 有 名 的 就 
是 CGL(Carrier Grade Linux) ,CGL 致力 于 制定 符合 电信 运营 的 Linux。CGL 承诺 遵循 LSB 
标准 。 此 外 OSDL 还 资助 了 DCL (Data Center Linux) 和 DTL(Desktop Linux) 标 准 。 有 关 
OSDL 的 标准 请 参见 http: //www .osdl.org。 


1.4 Linux 系统 的 主要 发 布 版 本 


由 上 文 可 知 ,Linux 系统 由 Boot Loader 程序 、 内 核 程序 及 许多 应 用 程序 组 成 。 虽 然 Linux 
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系统 中 的 所 有 源 代 码 都 是 基于 GPL 或 者 LGPL 的 ,但 是 将 所 有 的 这 些 应 用 程序 和 Linu 内 核 
组 织 在 一 起 ,并 进行 测试 与 维护 ,最 后 形成 一 个 完整 Linux 发 布 包 并 没有 想象 中 那么 容易 , 尽 
管 许多 读者 有 编译 并 构造 Linux 发 布 包 的 经 验 。 

互联 网 上 有 一 个 标准 文档 LFS(Linux From Scratch) ,介绍 如 何 使 用 散布 在 各 个 网 站 的 源 
代码 构建 一 个 Linux 发 布 版 本 的 过 程 (LFS 的 网 站 为 http: //www.linuxfromscrach.org)。 但 
是 将 这 些 Linux 发 布 版 本 ,最 后 封装 成 为 产品 ,发 布 到 最 终 用 户 手 里 ,还 要 需要 许多 具体 和 细 
致 的 工作 。 目 前 ,较为 常用 的 Linux 发 布 包 有 以 下 几 种 。 

(1) Redhat。RedHat Linux 是 目前 世界 上 使 用 最 多 的 Linux 发 布 包 。 它 具备 最 好 的 图 形 
界面 ,无 论 是 安装 、 配 置 还 是 使 用 都 十 分 方便 ,而 且 运 行 稳定 。 因 此 不 论 是 新 手 还 是 老 玩家 都 
对 它 有 很 高 的 评价 。RedHat Linux 9.0 以 上 的 版 本 更 名 为 Fedora。 

(2) Debian。Debian 是 Linux 发 行 版 当中 最 自由 的 一 种 , Debian 不 属于 任何 商业 公司 。 
与 Redhat 相 比 ,Debian 的 安装 有 些 难 度 。 不 过 ,使 用 Debian 可 以 实现 应 用 软件 平滑 升级 ， 
Debian 还 具有 最 为 丰富 的 软件 包 。Debian 的 软件 包 管 理 程序 较为 强大 ,有 许多 使 用 Linux 系 
统 的 专业 人 士 喜欢 Debian。 

(3) SUSE。SUSE 是 德国 最 富 盛 名 的 Linux 发 布 版 ,SUSE 继承 了 德国 人 一 贯 严谨 的 作 
风 。 在 欧洲 ,SUSE 是 Linux 企业 级 版 本 的 首选 。2003 年 SUSE 被 Novell 收购 。 

(4) Gentoo。Gentoo 是 唯一 基于 源 代码 的 Linux 发 布 版 本 。Gentoo 在 安装 时 可 以 选择 预 
先 编译 好 的 软件 包 ,但 是 大 部 分 使 用 Gentoo 的 用 户 都 选择 自己 手工 编译 所 有 与 Linux 系统 相 
关 的 代码 。 由 于 与 Linux 系统 相关 的 代码 实在 太 多 ,因此 编译 完 软件 需要 消耗 大 量 的 时 间 。 
如 采编 译 所 有 与 Linux 系统 相关 的 软件 ,并 安装 KDE 桌面 系统 等 比较 大 的 软件 包 , 有 可 能 需 
要 几 天 时 间 才 能 将 Gentoo 安装 完 。 

($5) Yellow Dog。Yellow Dog Linux 是 Linux PowerPC 的 主要 参与 者 之 一 。Yellow Dog 
Linux 与 Red Hat Linux 较为 类 似 。 与 Red Hat Linux 相 比 ,Yellow Dog 更 加 偏重 于 对 Linux 
PowerPC 的 支持 。 | 

(6) Ubuntu。Ubuntu 基于 Debian, 使 用 apt-get 命令 进行 软件 更 新 。 但 是 Ubantu 与 
Debian 略 有 不 同 ,Ubuntu 每 6 个 月 发 布 一 次 ,并 为 每 一 个 版 本 提供 18 个 月 的 技术 支持 。2006 
年 以 来 ,Ubuntu 取得 了 长 足 的 进步 ,并 逐渐 为 用 户 接受 。 目 前 Ubuntu 已 经 成 为 一 种 主流 的 
Linux 发 布 包 。 


1.5 Linux 系统 的 组 成 


1991 年 4 月 ,Linus Torvalds , 即 Linux 的 创始 人 ,开始 了 更 新 Minix 的 工作 。 此 时 他 写 出 
了 第 一 封 E-Mail, 请 求 来 自 互联 网 上 的 自愿 者 协助 开发 Linux 系统 。 

1991 年 9 月 Linux V0.01 面世 ,1994 年 三 月 发 布 Linux V1.0。V1.0 是 一 个 真正 意义 上 
可 以 使 用 的 Linux 系统 ,当时 全 球 共 有 10 万 个 用 户 ,中 国 第 一 批 Linux 系统 的 爱好 者 就 是 在 
这 时 开始 接触 Linux 的 。 此 后 的 Linux 系统 历经 了 一 系列 主要 的 里 程 碑 :V1.2(1995 年 3 
月 ),V2.0(1996 年 6 月 ),V2.2(1999 年 1 月 ),V2.4(2001 年 1 月 ),V2.6(2005 年 11 月 )。 至 
今 Linux 已 发 展 至 V2.6。 

Linux 可 以 在 不 同体 系 结构 的 处 理 器 上 运行 ,包括 Alpha, ARM ,Pentium,PowerPC 处 理 器 
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等 等 。Linux 系统 中 大 多 数 源 代 码 使 用 C 语言 编写 而 与 硬件 体系 结构 无 关 , 而 部 分 源 代码 使 
用 相应 的 汇编 语言 编写 并 与 硬件 体系 结构 相关 。 本 书 将 重点 介绍 与 PowerPC 体系 结构 相关 
的 Linux 系统 , 即 Linux PowerPC。 

与 其 他 体系 结构 的 Linux 系统 类 似 ,Linux PowerPC 主要 由 五 个 子 系 统 组 成 :进程 调度 、 
内 存 管理 文件 系统 网络 接口 进程 间 通 信 。 

(1) 进程 调度 。Linux 系统 作为 多 用 户 操 作 系 统 , 支 持 多 进程 与 多 线程 ,进程 调度 模块 负 
责 进 程 管理 ,并 管理 进程 对 系统 资源 的 访问 。 进 程 调度 子 系统 的 主要 作用 是 选择 合适 的 进程 
在 当前 处 理 器 系统 中 运行 ,并 对 未 获得 处 理 器 资源 的 进程 进行 管理 。Linux 系统 使 用 基于 优 
先 级 的 进程 调度 算法 。 

(2) 内 存 管理 。 内 存 管理 是 进程 通过 软 硬 件 协 作 来 进行 内 存 访问 的 一 种 机 制 。 它 可 以 为 
进程 分 配 、 释 放 内 存 , 并 维护 系统 中 内 存 的 使 用 状态 。 在 Linux 系统 中 ,内 存 管 理子 系统 较为 
复杂 ,内 存 管理 子 系统 也 是 整个 Linux 系统 的 核心 。 如 果 进 程 调度 子 系统 是 Linux 的 心脏 , 那 
么 内 存 管理 子 系统 就 是 Linux 的 血液 。 

(3) 文件 系统 。 在 Linux 中 文件 是 一 个 线性 的 数据 流 ,可 以 是 存放 在 外 部 存储 器 中 的 数 
据 ,也 可 以 用 来 表示 某 个 外 设 。 文 件 系 统 主要 用 来 对 文件 进行 管理 。 文 件 系统 隐藏 了 具体 设 
备 的 硬件 细节 ,并 为 所 有 的 外 部 设备 提供 了 统一 的 接口 。 文 件 系 统 由 边 辑 文件 系统 (如 ext2， 
ufs,romfs,jffs2 等 ) 和 一 些 设 备 驱 动 程序 组 成 。 

(4) 网 络 接口 。 网 络 接口 用 来 文 持 各 种 网 络 结构 和 各 种 网 络 硬件 。 网 络 接口 可 分 为 协议 
栈 和 网 络 驱 动 程序 。 网 络 协议 部 分 用 来 实现 每 一 种 可 能 的 网 络 传输 协议 。 网 络 设备 驱动 程序 
负责 与 便 件 设备 通信 。 

(5) 进程 间 通信 (IPC) ,支持 进程 间 各 种 通信 机 制 。 

Linux 的 五 大 子 系统 之 间 相 互 依赖 。Linux 系统 使 用 了 许多 源 代码 用 来 实现 其 五 大 子 系 
统 。Linux 2.6.20 的 源 代码 由 两 万 多 个 文件 组 成 ,分 布 在 一 千 多 个 目录 中 ,大 约 有 几 百 万 行 代 
但 , 共 占 有 两 百 多 兆 的 数据 空间 。Linux 的 源 代码 基本 结构 如 图 1-1 所 示 。 


root 


| 
图 1-1 Linux 源 代码 结构 图 


(1) root 目录 。 在 root 目录 中 最 重要 的 文件 是 Makefile。 在 这 个 文件 中 包含 了 许多 与 
Linux 内 核 配置 有 关 的 信息 ,如 Linux 内 核 的 版 本 号 ,Tool-Chain 的 选择 ,编译 连接 Linux 内 核 
使 用 的 参数 ,及 各 种 对 Linux 系统 源 代码 进行 操作 的 命令 。 

(2) arch 目录 。 在 arch 目录 中 包含 与 体系 结构 有 关 的 子 目录 与 文件 。Linux PowerPC 开 
发 者 所 涉及 的 文件 基本 上 都 在 arch/powerpc 目录 中 。 

(3) scripts 目录 。 在 scripts 目录 中 存放 着 许多 对 核心 进行 配置 的 脚本 文件 。 


(4) crypto 目录 。 在 crypto 目录 中 包含 了 许多 常见 的 密码 算法 ,但 是 这 些 算法 基本 上 都 
没有 针对 处 理 吕 进行 优化 。 

(5) drivers 目录 。 在 drivers 目 录 中 含有 各 种 各 样 的 设备 驱动 程序 ,包括 字符 型 , 块 型 和 网 
络 设备 驱动 程序 。 

(6) fs 目录 。 在 fs 目录 中 包含 了 Linux 系统 所 支持 的 各 种 文件 系统 类 型 。 常 用 的 文件 系 
统 有 ext3,nfs,jffs2 和 vfs 类 型 。 

(7) include 目录 。 在 include 目录 中 包含 了 Linux 系统 所 用 的 头 文件 ,此 外 在 该 目录 中 还 
含有 与 体系 结构 有 关 的 目录 。 如 与 PowerPC 处 理 器 有 关 的 目录 . /include/asm-powerpc。 

(8) init 目录 。 在 init 目录 中 存放 着 与 Linux 内 核 相 关 的 启动 代码 。 其 中 main.c 中 的 
start _kernel 函数 是 Linux 内 核 的 人 口 函 数 。 

(9) ipc 目录 。 在 ipc 目录 中 存放 着 与 Linux 进程 间 通 信 相 关 的 代码 。 

(10) kernel 目录 。 在 kernel 目录 中 含有 许多 与 Linux 进程 调度 子 系统 相关 的 源 代 码 。 与 
体系 结构 相关 的 部 分 Linux 核心 代码 存放 在 . /arch 目录 中 ,如 Linux PowerPC 使 用 的 部 分 核 
心 代码 存放 在 . /arch/powerpc/kernel 目录 中 。 

(11) lib 目录 。 在 lib 目录 中 存放 着 Linux 内 核 所 用 的 库 文件 。 

(12) mm 目录 。 包 含 所 有 Linux 内 存 管 理 与 体系 结构 无 关 的 源 代码 。 与 体系 结构 相关 的 
部 分 Linux 核心 代码 存放 在 . /arch 目录 中 ,如 Linux PowerPC 使 用 的 部 分 与 内 存 管 理 相 关 的 
源 代码 存放 在 . /arch/powerpc/mm 目录 中 。 

(13) net 目录 。 在 net 目录 中 存放 着 有 关 网 络 协议 栈 的 源 代码 。 

Linux 作为 一 个 开放 源 代码 的 操作 系统 ,其 提供 的 源 代码 为 广大 的 爱好 者 提供 了 一 个 深 
入 钻研 其 实现 细节 的 机 会 。 然 而 面 对 如 此 海量 的 Linux 源 代 码 ,即使 是 最 有 经 验 的 系统 程序 
员 也 会 觉得 困惑 ,感到 难以 阅读 。 

目前 有 许多 工具 可 以 对 源 代码 的 结构 进行 分 析 , 如 运行 在 Linux 平台 中 的 Gvim, Emacs 
文本 编辑 器 ,运行 在 Windows 平台 的 Source Insight 等 其 他 工具 。 在 互联 网 ,还 有 人 提供 了 一 
些 专门 用 于 阅读 Linux 源 代 码 的 网 站 ,如 http: //xr.linux.no, 便 于 程序 员 阅 读 Linux 系统 源 
代码 。 


1.6 什么 是 Linux PowerPC 


本 书 将 基于 PowerPC 处 理 器 的 Linux 系统 ,简称 为 Linux PowerPC。 目 前 为 止 ,Linux 系 
统 对 两 种 处 理 器 系统 的 支持 最 为 全 面 。 一 个 是 Linux Pentium, 另 外 一 个 就 是 Linux PowerPC。 

Linux Pentium 十 Linux 用 户 最 经 常 使 用 的 操作 系统 ,大 多 数 Linux 工程 师 是 从 Linux 
Pentium 开始 认识 整个 Linux 系统 的 ,许多 人 认为 的 Linux 系统 就 是 指 Linux Pentium。 对 
Linux 源 代码 进行 配置 时 ,如 果 用 户 不 将 ARCH 参数 进行 赋值 ,将 默认 使 用 Linux Pentium 作 
为 编译 对 象 ,造成 这 种 现象 的 原因 是 不 言 而 喻 的 。 

而 Linux PowerPC 的 兴起 主要 源 于 IBM 的 努力 ,在 IBM 的 iSeries, pSeries 及 许多 种 类 服 
务 咽 上 都 将 Linux 系统 作为 选择 提供 给 用 户 ,同时 IBM 对 Linux 系统 中 各 个 子 系统 都 有 突出 
的 贡献 ,相信 所 有 熟悉 Linux 系统 开发 的 读者 ,都 应 该 知道 IBM 的 Linux 论坛 的 URL: 

www.ibm .com/developerworks/cn/linux 
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在 这 里 ,你 几乎 可 以 找到 关于 Linux 系统 从 内 核 到 应 用 的 所 有 人 门 知 识 ;在 这 里 ,许多 经 
典 的 英文 文章 都 被 翻译 为 汉语 ;在 这 里 , IBM 的 工程 师 和 许多 其 他 公司 的 工程 师 无 私 地 向 外 
界 传递 着 有 关 Linux 的 各 种 知识 。 

同时 ,在 IBM 数 以 万 计 的 工程 师 们 直接 或 者 间接 地 从 事 着 与 Linux 系统 有 关 的 这 种 应 用 
开发 。 这 一 切 使 得 Linux PowerPC 成 为 除 Linux Pentium 之 外 ,最 为 成 熟 ,使 用 最 为 广泛 ,也 最 
易 商 业 化 的 Linux 系统 。 

Linux 系统 的 发 展 一 刻 也 没有 停息 过 , Linux 的 各 个 子 系统 不 断 更 新 。 即 使 都 是 在 Linux 
2.6 版 本 中 ,2.6.10 与 2.6.20 相 比 ,也 有 许多 子 系统 发 生 了 显著 的 变化 。 

在 基于 2.6.10 的 Linux PPC 中 ,我们 可 以 使 用 ARCH= ppc 或 者 ARCH= ppc64 对 Linux 
PowerPC 内 核 的 32 位 和 64 位 处 理 器 进行 配置 ,而 到 了 2.6.20 内 核 中 我 们 可 以 使 用 ARCH= 
ppc 或 者 ARCH = powerpc 对 Linux PowerPC 内 核 进行 配置 。 

在 不 久 的 将 来 ARCH = ppc 将 会 被 逐步 淘汰 ,将 会 使 用 ARCH = powerpc 对 所 有 的 Linux 
PowerPC 文 持 的 处 理 器 系统 进行 配置 。 与 之 相关 的 .March/ppc, . /arch/ppc64,. /include/asm- 
ppc, . /include/asm-ppc64 目录 也 将 合并 到 . /arch/powerpc 和 . /include/asm-powerpc 目 录 中 。 
这 也 是 本 书 将 基于 PowerPC 处 理 器 的 Linux 系统 ,简称 为 Linux PowerPC 而 不 是 Linux PPC 
的 主要 原因 。 

与 Linux PPC 相 比 ,Linux PowerPC 做 出 了 许多 重大 的 改动 。 

(1) 将 ppc 与 ppc64 目录 进行 合并 ,并 使 用 powerpc 目录 对 所 有 基于 PowerPC 处 理 器 的 
Linux 系统 进行 支持 。 

(2) 重新 编写 了 Linux 中 汤 处 理子 系统 ,将 之 前 Linux PPC 对 OpenPIC 构架 进行 支持 源 
代码 更 换 为 Linux PowerPC 中 MPIC 构架 。 

(3) 全 面 使 用 Open Firmware 结构 对 Linux PowerPC 进行 引导 。 

(4) 全 面 使 用 LMB(Logic Memory Block) 结 构 对 内 存 进行 管理 。 

(5) 重新 调整 Linux PowerPC 的 源 代码 结构 ,并 增添 了 许多 有 利于 Linux PowerPC 层次 
化 的 数据 结构 ,以 便 系 统 用 户 为 Linux PowerPC 增加 新 的 处 理 器 平台 。 

(6) 还 有 许多 在 Linux PowerPC 中 开始 使 用 ,后 来 提交 到 整个 Linux 系统 中 的 模块 。 

Linux PowerPC 对 整个 Linux 系统 的 贡献 是 不 可 磨灭 的 。 目 前 ,PowerPC+ Linux 已 经 成 
为 一 个 稳定 的 、 久 经 考验 的 系统 解决 方案 。Linux PowerPC 也 正 逐 渐 成 为 PowerPC 处 理 器 平 
台 的 首要 选择 。 

在 介绍 Linux PowerPC 之 前 ,本 书 将 较为 详细 地 介绍 PowerPC 处 理 器 的 构架 。 如 果 读 者 
已 经 十 分 熟悉 PowerPC 处 理 器 的 构架 ,可 以 略 过 第 2 章 到 第 4 章 的 内 容 。 但 是 我 仍然 建议 读 
者 仔细 阅读 这 些 内 容 ,毕竟 这 些 内 容 并 不 是 全 部 都 可 以 在 PowerPC 处 理 需 的 参考 手册 中 查找 
到 的 。 


第 2 帝 ” ”PowerPC 处 理 器 的 指令 集 与 寄存 器 


指令 集 与 寄存 器 是 PowerPC 处 理 器 中 最 基本 的 内 容 。 软 件 工程 师 在 开始 接触 PowerPC 
处 理 此 时 ,就 会 学 习 这 部 分 内 容 。 然 而 在 国内 ,许多 使 用 过 PowerPC 处 理 器 的 软件 工程 师 并 
不 能 写 出 漂亮 的 PowerPC 汇编 程序 ,多 数 软件 工程 师 写 出 来 的 PowerPC 汇编 程序 的 执行 效率 
比 C 程 序 的 执行 效率 还 要 低 得 多 。 这 是 因为 大 多 数 软 件 工程 师 并 没有 全 面 地 了 解 PowerPC 
处 理 带 的 指令 集 , 没 有 深入 理解 PowerPC 处 理 器 的 指令 执行 过 程 。 

本 章 将 以 PowerPC E500 内 核 为 例 ,讲述 PowerPC 处 理 器 的 指令 集 与 寄存 器 ,此 外 还 对 指 


令 在 E500 内 核 中 的 执行 过 程 、 乱 序 执行 、ABI(Application Binary Interface) 等 知识 简单 地 进行 
介绍 。 


2.1 PowerPC 处 理 器 概述 


PowerPC 处 理 仑 是 Freescale、IBM 和 苹果 电脑 的 合作 结晶 。 最 初 这 颗 处 理 器 的 目标 客户 
是 Apple 的 MAC 机 ,而 且 该 处 理 器 还 针对 通信 类 、 消 费 类 电子 等 一 系列 广 记 的 应 用 。 

日 从 PowerPC 处 理 器 诞生 以 来 ,这 颗 处 理 器 在 其 应 用 的 各 个 领域 一 直 遭 受 着 竞争 对 手 的 
猛烈 攻击 。 苹 果 公 司 的 Power Book 对 PowerPC 处 理 器 的 弃 用 基本 上 标志 了 Wintel 在 个 人 
PC 市场 的 垄断 ,也 同时 宣告 了 PowerPC 处 理 器 在 个 人 PC 市 场 中 一 个 时 代 的 结束 。 在 通信 和 领 
域 里 ,PowerPC 处 理 器 也 遇 到 了 来 自 ARM 和 MIPS 处 理 器 的 强烈 挑战 。 只 有 在 高 端的 游戏 
领域 ,PowerPC+ Cell 处 理 器 取得 了 新 的 成 功 。 但 是 所 有 这 些 来 自 商 业 上 的 压力 并 不 能 阻挡 
PowerPC 在 技术 上 的 领先 。 

最 近 十 年 里 ,IBM 半导体 部 门 取得 了 一 个 又 一 个 新 技术 突破 , 铜 介质 、 低 介 电 绝缘 电介质 
(low-k)、 应 变 硅 技 术 (Strained silicon) 绝缘体 硅 片 (Sol, Silicon-On-Insulator)、 硅 鱼 双 极 集成 
电路 (SiGe-BiCMOS) 等 一 系列 有 关 芯 片 制造 的 新 工艺 不 断 应 用 到 PowerPC 处 理 器 中 。 多 核 
技术 也 早已 在 PowerPC 处 理 器 中 实现 。PowerPC 处 理 融 的 主 频 和 系统 总 线 带 宽 也 在 不 断 地 
提高 。PowerPC 处 理 器 在 所 有 这 些 高 新 技术 的 笼罩 下 ,已 注定 是 一 颗 “ 贵 族 的 芯片 ”。 

对 于 大 多 数 软 硬件 工程 师 ,PowerPC 处 理 器 的 入门 并 不 容易 。PowerPC 处 理 器 自身 的 复 
如 性 增加 了 软件 的 开发 难度 ;PowerPC 处 理 器 过 于 灵活 的 硬件 配置 使 得 硬件 工程 师 们 疲 于 奔 
命 ;在 设计 基于 PowerPC 处 理 器 的 系统 时 硬件 工程 师 不 可 避免 地 遇 到 一 些 高 速 硬件 设计 规 
范 , 这 使 得 CAD 工程 师 们 做 着 一 遍 又 一 遍 的 硬件 仿真 与 模拟 ; PowerPC 处 理 器 的 各 种 内 核 都 
文 持 多 处 理 器 结构 ,而 对 于 许多 应 用 ,用 户 仅 仅 需要 一 个 处 理 器 ,但 是 在 PowerPC 处 理 器 的 内 
核 文档 中 基本 上 都 包含 多 内 核 才 涉及 的 内 容 , 这 给 新 人 行 的 工程 师 带 来 了 许多 困难 。 因 此 工 
程 们 在 深入 理解 PowerPC 处 理 器 时 不 可 避免 地 会 遇 到 许多 障碍 。 

即便 如 此 , 仍 有 许多 公司 谢 然 选择 使 用 PowerPC 处 理 器 。 因 为 作为 一 个 处 理 器 ， 
PowerPC 的 优点 十 分 突出 。 这 些 优点 主要 体现 在 PowerPC 的 指令 集 \ 指 令 执行 和 处 理 器 内 核 
的 设计 。 
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IBM 和 Freescale 的 PowerPC 处 理 器 的 最 大 区 别 在 于 Freescale 的 PowerPC 处 理 器 中 包含 
一 个 QUICC 沪 片 。Freescale 也 将 包含 QUICC 芯片 的 PowerPC 称 为 PowerQUICC。 
PowerQUICC 系列 的 CPU 包含 两 个 处 理 器 芯片 : PowerPC Core 和 CPM (Communications 
Processor Module ) 。 

IBM 与 Freescale 半导体 维护 着 各 自 PowerPC 处 理 器 的 设计 路 线 。 

其 中 ,IBM 出 售 的 PowerPC 处 理 器 大 致 分 为 以 下 几 种 ， 

@ PowerPC 600 系列 ,如 PowerPC 603e，604e, 第 一 个 64 位 的 PowerPC 处 理 器 PowerPC 

620 等 一 系列 处 理 兢 。 

8 PowerPC 700 系列 ,如 PowerPC750。PowerPC750 是 世界 上 第 一 个 使 用 铜 介质 的 芯片 。 
PPC750FX,PPC750GX 不 仪 适用 于 PC 市 场 (Apple 机 ) ,也 是 高 端 消 费 类 市 场 的 主角 。 
你 可 以 在 许多 高 端 打印 机 中 找到 这 颗 世 

e@ PowerPC 900 系列 。64 位 处 理 器 PowerPC 970。 这 甘 处 理 项 开始 批 量 生 7“ 的 时 间 蚌 高 
Apple 公司 弃 用 PowerPC 处 理 器 的 时 间 较 为 接近 。 

@ PowerPC 400 系列 。 这 是 一 个 非常 被 看 好 的 PowerPC 处 理 融 系列 。 这 类 芯片 集中 体现 
了 PowerPC 处 理 需 灵活 配置 的 特性 ,当时 这 类 芯片 的 设计 目标 是 从 小 型 的 应 用 系统 到 
大 规模 的 巨型 机 上 。 如 采用 低 端 配置 的 PPC40SEP, 可 以 适合 机 顶 盒 ,小 型 交换 机 的 需 
求 ;而 采用 高 端 配置 的 PPC440GX, 可 以 适合 高 端 路 由 器 、 复 杂 的 3G 系统 到 超大 规模 巨 
型 机 的 应 用 。 人 们 正 有 盼望 PowerPC 400 系列 在 市 场 上 取得 成 功 的 时 候 ,IBM 突然 宣布 
将 400 系列 的 PowerPC 处 理 器 转让 给 AMCC。 

IBM 还 有 一 系列 用 于 服务 器 的 PowerPC 处 理 器 芯片 ,只 是 一 般 用 户 并 不 能 直接 获得 有 关 
这 些 处 理 需 的 详细 资料 。 这 些 PowerPC 处 理 器 主要 用 于 IBM 的 服务 器 ,近期 并 没有 卖 给 其 
他 用 户 的 打算 。 从 技术 角度 上 说 ,这 些 PowerPC 处 理 器 的 组 成 结构 远 比 用 于 通信 和 领域 的 
PowerPC 处 理 器 复杂 得 多 ,这 一 类 芯片 是 IBM 的 PowerPC 处 理 器 的 精华 ,只 是 有 关 这 些 
PowerPC 处 理 需 的 资料 并 没有 完全 公开 。 

Freescale 的 PowerPC 处 理 器 共 分 为 两 类 ,一 类 用 于 汽车 电子 ,如 MPCSXX 系列 ,这 类 世 
片 主要 用 于 汽车 的 主 控 系 统 ; 另 一 类 用 于 通信 和 领域 的 PowerPC 处 理 器 。 用 于 通信 和 领域 的 
PowerPC 处 理 器 大 致 分 为 以 下 系列 : 

e@ 603 内 核 系列 。 如 MPC8S$0, MPC860 ,MPC885 等 。 这 类 芯片 目前 是 Freescale 最 低 端 

的 PowerPC 处 理 器 。 这 些 处 理 需 的 最 大 优点 就 是 价格 低 龙 。 中 国 第 一 代 PowerPC 工 
程 师 就 是 从 MPC860 处 理 器 开始 学 习 使 用 PowerPC 处 理 器 的 ,在 这 类 PowerPC 处 理 器 
中 并 没有 包含 SDRAM 接口 ,用 户 必 须 使 用 MPC860 中 提供 的 UPM (User- 
Programmable Machines) 接 口 配 置 SDRAM 接口 。 

@ 603E 内 核 系 列 。 包 括 MPC8250 ,MPC8260 ,MPC8272 等 。 从 PowerPC 内 核 的 角度 看 ， 
603 内 核 到 603E 内 核 的 升级 并 不 是 非常 大 。 其 中 主要 的 升级 是 在 存储 器 管理 单元 
MMU 上 ,此 外 MPC82XX 系列 的 处 理 器 包含 了 SDRAM 控制 器 ,可 以 直接 与 SDRAM 
攻 片 直接 相连 。 

@ E300 内 核 系列 。 包 括 MPC8349,MPC8347, MPC8360 等 。E300 系列 与 603E 系列 结 
构 基 本 一 致 ,在 处 理 器 内 核 上 作 的 修改 并 不 多 。Freescale 的 QE 首先 在 MPC8360 芯片 
中 实现 ,此 外 基于 E300 内 核 的 处 理 器 支持 DDR SDRAM 接口 。 基 于 E300 内 核 的 处 理 
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艇 可 以 对 基于 603E 内 核 的 处 理 器 进行 替换 。 

e 上 500 内 核 系 列 。 包 括 MPC8540,MPC8560,MPC8548 等 。E500 内 核 共 有 两 个 版 本 ， 
V1 和 V2。V1 版 本 与 V2 版 本 的 最 大 区 别 在 于 MMU。 基 于 E500 内 核 的 PowerPC 处 
理 般 是 Freescale 高 端 处 理 器 的 发 展 方向 ,其 内 核 结构 与 603E 内 核 有 较 大 的 不 同 。 具 
体 地 说 ,这 两 类 PowerPC 内 核 间 只 有 指令 系统 是 兼容 的 ,其 他 的 内 核 组 件 都 不 相同 。 
基于 E500 内 核 的 芯片 支持 DDR SDRAM.、RapidIO 和 千 兆 以 太 网 等 高 速 接口 。 

e G4,E600 内 核 系 列 。 包 括 MPC7410,MPC7447,MPC7448,MPC8641 等 。 这 一 系列 艾 

片 与 IBM 的 PowerPC 700 系列 的 最 大 不 同 在 于 G4 系列 支持 AltiVec 结构 (该 结构 中 包 
合 一 组 SIMD 指令 )。 这 类 处 理 器 也 是 Apple 公司 用 于 MAC 机 的 芯片 。 

e E700 系列 , 文 持 64 位 的 PowerPC 结构 ,正在 实现 中 。 这 类 芯片 的 内 核 基 于 Book E 的 
64 位 实现 ,而 E500 内 核 是 Book EE 的 32 位 实现 。 

最 近 ,Freescale 将 CPM 升级 为 QE(QUICC Engine),QE 是 PowerQUICC 系列 芯片 十 年 
以 来 推出 的 最 重要 的 一 个 组 件 。 我 们 可 以 在 基于 E300 内 核 的 MPC8360,MPC8323 这 些 处 理 
钱 中 发 现 QE 所 提供 的 各 种 功能 。 某 些 基 于 E500 内 核 的 芯片 也 将 支持 QE, 如 MPC8568， 
MPC8572 等 一 系列 芯片 。 

在 某 种 程度 上 , QE 代表 了 PowerQUICC 的 未 来 , CPM 将 逐步 被 QE 所 替代 。 如 果 
Freescale 可 以 将 QE 的 全 部 源 代码 公开 ,并 人 允许 用 户 进行 二 次 开发 ,QE 所 起 到 的 作用 与 一 些 
底 端 的 网 络 处 理 器 (Network Processor, NP) 类 似 。 否 则 ,其 作用 不 过 是 对 现 有 CPM 模块 的 
升级 。 

本 书 主 要 介绍 基于 E500 内 核 的 PowerPC 处 理 器 。 其 中 ,E500 内 核 是 PowerPC 体系 结构 
的 一 个 内 核 。 基 于 E500 内 核 的 处 理 器 一 一 坡 使 用 在 通信 和 工业 控制 留 页 域 的 高 端 应 用 中 ,是 一 
颗 用 于 控制 层面 的 处 理 器 。 

在 学 习 E500 内 核 之 前 ,读者 需要 了 解 Book E 内 核 .E500 内 核 和 PowerQUICC III 之 间 
的 区 别 。Book E 内 核 是 IBM 和 Freescale 共同 开发 的 一 种 PowerPC 内 核 。 其 中 Book E 内核 
在 指令 集 和 寄存 器 上 与 其 他 PowerPC 内 核 完 全 兼容 , Book E 内 核 描 述 了 32 位 和 64 位 
PowerPC 处 理 需 的 实现 细节 。 

E500 内 核 只 支持 32 位 PowerPC 处 理 器 ,该 内 核 继承 了 Book E 内 核 中 32 位 处 理 器 的 大 
多 数 内 容 , 但 在 实现 的 细节 上 略 有 不 同 。 比 如 E500 内 核 不 支持 浮 点 数据 的 处 理 。 一 些 基 于 
E500 内 核 的 处 理 器 , 如 MPC8541 使 用 SPE(Signal Processing Engine) 处 理 浮 点 数 的 运算 。 
PQIII 系列 处 理 器 是 Freescale 基于 E500 内 核 的 一 组 芯片 ,包括 MPC8540, MPC8560， 
MPC8541 ,MPC8548 等 一 系列 处 理 器 ,在 不 远 的 将 来 , Freescale 还 会 推出 一 系列 基于 多 个 
E500 内 核 的 PowerPC 处 理 器 ,如 MPC8572 和 MPC8574 等 。 

与 其 他 PowerPC 体系 结构 (如 603E 内 核 ) 相 比 ,E500 内 核 在 MMU ,指令 执行 和 中 断 系统 
做 出 了 许多 重大 修改 ,但 是 在 用 户 指令 集 及 寄存 器 上 与 基于 其 他 PowerPC 内 核 的 处 理 器 兼 
容 。 本 书 将 以 E500 内 核 为 主 介绍 PowerPC 体系 结构 ,同时 稍微 兼顾 基于 603E 的 内 核 。 
E500 内 核 共 有 V1 和 V2 两 个 版 本 ,本 书 将 对 E500 V1 版 本 进行 介绍 。 

本 书 不 会 讲述 有 关 Book E 和 E500 内核 的 全 部 细节 ,对 此 有 兴趣 的 读者 可 以 从 以 下 URL 
中 下 载 有 关 Book E 和 E500 内 核 的 用 户 手册 ,进一步 了 解 Book E 内 核 .E500 内 核 及 与 之 相关 
的 一 些 实现 细节 : 
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www. {reescale. com /files/32bit/doc/ref manual/EREFRM.pdf 

www. {freescale. com/files/32bit/doc/ref _ manual/ESO0UCORERM . pdf 

www,. frecscale. com/files/32bit/doc/ref _ manual/ES00ABIUG .pdf 

如 采访 者 已 经 基本 党 握 了 ESs00 内 核 的 知识 ,这 些 手 册 可 以 用 作 工 具 书 ,需要 时 可 以 依 此 
进行 检索 查询 。 但 是 对 于 初学 者 ,这 些 文档 可 能 并 不 合适 。 为 此 ,下 文 会 依照 以 上 这 些 文档 ， 
对 “如 何 学 习 E500 内 核 " 进 行 简单 的 叙述 


2.2 E500 内 核 的 寄存 器 


ES00 内 核 有 两 组 寄存 器 ,分 别 是 用 户 模 式 寄 存 器 (User-Level Registers, ULR) 与 超级 用 户 
模式 寄存 冉 (Supervisor-Level Registers,SLR)。 与 此 相对 应 ,E500 内 核 有 两 种 运行 模式 , 即 用 
户 恒 式 (User Mode) 和 超级 用 户 模式 (Supervisor Mode) 。 

PowerPC 处 理 般 在 用 户 模式 或 者 超级 模式 下 运行 时 可 以 访问 用 户 模 式 寄 存 器 ULR, 而 
PowerPC 外 理 句 在 超级 模式 下 运行 时 可 以 访问 超级 用 户 模式 寄存 右 SLR ， 

用 户 可 以 通过 修改 E500 内 核 的 处 理 器 状态 寄存 器 MSR( Machine State Register) 的 PR 
位 进行 用 户 模式 与 超级 用 户 模 式 的 切换 。E500 内 核 也 可 以 在 进入 中 断 、 系 统 调用 和 异常 时 实 
现 用 户 模式 与 超级 用 户 模 式 的 切换 ， 有 些 相 对 较为 简单 的 操作 系统 如 VxWorks 始终 将 E500 
内 核 运 行 在 超级 用 户 模式 ,而 不 进行 处 理 器 状态 的 切换 . 

Linux 系统 使 用 E500 内 核 提 供 的 用 户 模式 与 超级 用 户 模式 。Linux 系统 包含 两 类 地 址 空 
间 , 分 别 为 核心 空间 与 用 户 空间 。 其 中 核心 进程 和 在 Linux 核心 中 执行 的 用 户 进 程 运行 在 
Linux 核心 空间 中 ,而 用 户 进 程 大 多 数 时 间 运 行 在 Linux 用 户 空 间 中 。 

用 户 进程 震 要 使 用 系统 调用 才能 人 够 进入 Linux 核心 空间 。Linux PowerPC 要 求 进程 在 
Linux 核心 空间 运行 时 ,处 理 吉 的 MSR 寄存 器 的 PR 位 为 0; 进程 在 Linux 用 户 空间 运行 时 ， 
处 理 器 的 MSR 寄存 器 的 PR 位 为 1. 为 此 .Linux PowerPC 中 专门 定义 了 两 个 宏 ,分 别 用 来 描 
述 处 理 郑 处 于 用 户 模式 或 者 超级 用 户 模 式 时 ,MSR 寄存 部 的 值 。 处 理 疮 运行 在 用 户 模 式 时 
MSR 寄存 器 的 值 为 MSR _KERNEL, 而 处 理 器 运行 在 超级 用 户 模 式 时 MSR 寄存 器 的 值 为 
MSR USER, 这 两 个 宏 的 定义 在 .include/asm-powerpc/reg.h 文件 中 


#define MSR USER (MSR KFRNELIMSR PRIMSR EE) 

#define MSR KERNEL (MSR MEIMSR_IPIMSR_RI|MSR_IR|IMSR _ DR) 
#define MSR_ ME __ MASK(MSR ME _ LG) /* Machine Check Enable */ 
#define MSR_ RI MASK(MSR RI _ LG) /* Recoverable Exception */ 
#define MSR JIR MASK(MSR IR_ LG) /A* Instruction Relocate * / 

tdefine MSR_DR MASK(MSR DR LG) /* Data Relocate */ 

#define MSR_ PR _ MASK(MSR _ PR _ LO) /*¥ Problem State/Privilege Level */ 
#define MSR_ EE MASK(MSR EE LG) /% External lnterupt Raable */ 


由 以 上 代码 我 们 可 以 发 现 , 当 PowerPC 处 理 器 运行 在 用 户 模式 时 MSR 寄存 器 的 PR 位 
为 1 在 Linux PowerPC 中 ,用 户 进程 或 者 继承 父 进 程 的 MSR 寄存 器 的 值 ,或 者 使 用 系统 调 
用 execve 入 曾 原来 进程 空间 ,产生 新 的 进程 ,使 用 新 进程 MSR 寄存 冀 的 值 ， 
在 Linux PowerPC 中 ,一 个 进程 MSR 寄存 器 的 值 被 存放 在 进程 描述 符 中 , 当 进 程 获得 处 
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理 证 资源 后 ,再 将 这 些 存放 在 进程 描述 符 中 的 寄存 器 写 人 到 处 理 器 的 对 应 寄存 器 中 。 

Linux PowerPC 中 第 一 个 用 户 进程 init 是 使 用 系统 调用 execve 将 原来 的 进程 空间 进行 替 
换 的 ,而 其 他 的 用 户 进程 最 终 都 是 由 用 户 进程 init 创建 的 。 

由 此 分 析 , 我 们 可 以 发 现 ,在 Linux PowPC 创建 用 户 进 程 时 ,一 定 不 能 绕 过 系统 调用 
execve。 因 此 Linux PowerPC 在 系统 调用 execve 中 需要 对 用 户 进程 的 MSR 寄存 器 进行 设置 。 
系统 调用 execve 的 执行 顺序 如 图 2-1 所 示 。 
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图 2-] 系统 调用 execve 对 MSR 寄存 器 进行 设置 的 流程 


系统 调用 execve 最 终 将 调用 start _ thread 尔 数 替换 进程 的 正文 段 。 图 中 的 虚线 表示 fmt 
-之 load _ binary 函数 将 根据 所 加 载 的 可 执行 文件 类 型 ,选择 合适 的 函数 加 载 不 同 格式 的 可 执 
行文 件 ,这 些 函 数 都 将 会 调用 start _ thread 函数 。 
在 start _ thread 函数 中 将 对 进程 描述 符 中 存放 的 寄存 器 ,包括 对 MSR 寄存 器 进行 初始 
化 ,该 图 数 在 . /arch/powerpc/kernel/process.c 文件 中 .该 函数 将 调用 以 下 程序 更 改进 程 描述 
符 中 存放 的 MSR 寄存 器 . 
#ifdef CONFIG _ PPC32 
regs—>mq = 0; 
regs—>nip = start: 
regs—>msr = MSR._ USER; 
# else 
用 户 进程 获得 处 理 器 运行 时 ,会 将 PowerPC 处 理 器 的 MSR 寄存 器 赋值 为 regs 一 >msr, 从 
而 保证 在 Linux 系统 中 ,用 户 进程 可 以 运行 在 E500 内 核 的 用 户 模式 中 ， 
Linux 系统 的 用 户 进 程 需 要 进入 PowerPC 处 理 器 的 超级 用 户 模式 时 ,必须 通过 系统 调用 ， 
中 断 或 者 异常 才能 将 MSR 寄存 器 的 PR 位 清 零 ,而 不 能 直接 对 MSR 寄存 器 进行 操作 ,因为 该 
寄存 硕 只 能 在 处 理 器 运行 在 超级 用 户 模式 才能 访问 。Linux PowerPC 充分 利用 了 E500 内 核 
提供 的 MSR 寄存 器 将 Linux 系统 的 用 户 空间 与 内 核 空间 进行 了 有 效 隔离 ,从 而 保证 了 在 
Linux PowerPC 中 用 户 进程 不 可 能 访问 PowerPC 处 理 器 中 的 URL。 
在 了 解 了 PowerPC 处 理 器 的 用 户 模式 和 超级 用 户 模式 的 切换 后 ,读者 可 以 继续 了 解 用 户 
模式 寄存 器 和 超级 用 户 模式 寄存 器 。 在 阅读 这 些 寄 存 器 之 前 ,需要 提醒 读者 注意 ,在 E500 内 
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核 中 绝 大 多 数 的 寄存 器 都 是 32 位 。 在 这 些 32 位 寄存 器 中 ,第 32 位 为 最 高 位 ,而 第 63 位 为 最 
低位 ,而 64 位 的 寄存 器 中 的 第 0 位 为 最 高 位 ,而 第 63 位 为 最 低位 。 


2.2.1 URL 寄存 器 组 


E500 内 核 的 URL 寄存 器 组 与 其 他 PowerPC 体系 的 URL 寄存 器 组 类 似 。E500 内 核 将 
这 些 寄存 器 分 为 以 下 几 类 。 

e@ 通用 寄存 器 组 GPR(General-Purpose Registers)。 

e@ 指令 状态 寄存 器 组 IAR(Instruction-Accessible Registers) 。 

e@ 性 能 监测 寄存 器 组 PMR(Performance Monitor Regtsters) 。 在 用 户 模式 下 只 读 。 

@ L1 Cache 寄存 器 组 (LI Cache Registers) 。 在 用 户 模式 下 只 读 。 

e@ 用 户 通用 SPR 寄存 器 组 (User General Special-Purpose Registers) 。 

- @ 通 用 SPR 寄存 需 组 (General Special-Purpose Registers)。 在 用 户 模式 下 只 读 。 

@ Time Base Registers。 在 用 户 模 式 下 只 读 。 

@ 多 功能 寄存 器 (Miscellaneous Registers) ,包括 BBEAR 和 BBTAR ,用 作 动 态 分 支 预 测 。 

在 本 节 中 主要 介绍 通用 寄存 器 组 GPR 和 指令 状态 寄存 器 组 IAR,URL 寄存 器 组 中 的 其 
他 寄存 器 在 用 户 模式 下 只 读 , 在 超级 用 户 模式 下 可 以 进行 读 写 操作 。 

1. 通用 寄存 器 组 GPR 

E500 内 核 一 共 定 义 了 32 个 64 位 的 GPR ,GPR0 一 GPR31。 其 中 GPR 的 高 32 位 只 能 由 
E500 内 核 的 SPE 使 用 ,而 E500 内 核 的 其 他 指令 只 能 使 用 GPR 的 低 32 位 , 即 第 32 一 63 位 。 
本 书 不 对 GPR 的 高 32 位 的 使 用 方法 进行 说 明 ,对 此 部 分 有 兴趣 的 读者 可 以 阅读 Book E 的 参 
考 手册 。 

E500 内 核 的 大 多 数 指令 都 可 以 使 用 通用 寄存 器 作为 操作 数 。E500 内 核 使 用 指令 集 为 32 
位 ,在 这 些 指令 中 ,通用 寄存 器 将 占用 5 位 ,用 来 表示 GPR0 一 31。 

在 现代 的 32 位 RISC 处 理 器 中 ,通用 寄存 器 的 个 数 一 般 为 32 个 ,一 个 处 理 器 使 用 的 通用 
寄存 器 个 数 过 多 将 占用 指令 的 空间 ,过 少 则 不 能 充分 利用 指令 的 空间 。 对 于 PowerPC 处 理 
器 ,32 个 通用 GPR 是 一 个 合理 的 数字 。 

如 果 一 个 程序 不 考虑 兼容 性 而 且 所 有 的 代码 都 使 用 汇编 语言 开发 ,编程 人 员 就 可 以 自 定 
义 规则 将 这 些 寄 人 存 器 作为 真正 的 通用 寄存 器 任意 使 用 。 但 是 ,对 于 一 个 实际 的 系统 ,程序 的 兼 
容 性 不 可 以 忽略 ,而 且 绝 大 多 数 应 用 不 会 完全 使 用 汇编 语言 。 为 此 汇编 程序 员 们 必须 要 阅读 
E500 内 核 的 ABI(Application Binary Interface) 手 册 , 了 解 如 何 按照 规范 使 用 GPR 寄存 器 。 本 
书 将 在 2.4 节 中 简要 介绍 ABI 手册。 除了 这 个 ABI 手册 之 外 ,Linux 系统 还 规定 通用 寄存 器 
GPR2 保存 当前 进程 描述 符 的 地 址 。 

2. CR 寄存 器 

E500 内 核 中 的 IAR 寄存 器 组 是 用 来 保存 指令 执行 结果 或 者 控制 指令 执行 的 一 组 寄存 
需 , 在 IAR 寄存 器 组 中 包括 CR(Conditional Register) 寄 存 器 ,CTR(Counter Register) 寄 存 器 ， 
LR(Link Register) 寄存 器 ,XER( Interger Exception Register) 寄存 器 和 ACC(Accumulator) 寄 
存 器 。 

CR 寄存 器 用 来 存放 指令 执行 后 的 状态 ,该 寄存 器 分 为 8 个 字段 ,分 别 为 CR0 一 7, 其 中 每 
个 字段 由 4 位 组 成 。 这 些 字段 被 用 来 表示 指令 操作 的 结果 。 
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其 中 整 型 运算 指令 ,如 整 型 数 的 加 减 及 逻辑 运算 ,使 用 CR0 保存 结果 状态 。 

e CR0L0j] ,用 于 表示 LT( 小 于 , 当 整 型 指令 运算 结果 为 负 时 置 1)。 

e CR0L1j ,用 于 表示 GT( 大 于 , 当 整 型 指令 运算 结果 为 正 时 置 1)。 

e CR0L2j ,用 于 表示 EQ( 等 于 , 当 整 型 指令 运算 结果 为 0 时 置 1)。 

e CR0L3] ,用 于 表示 SO( 溢 出 , 当 整 型 指令 运算 结果 溢出 时 置 1)。 

浮 点 运算 指令 使 用 CR1 保存 结果 状态 。 

e CR1[0j] ,用 于 表示 LT( 小 于 , 当 浮 点 指令 运算 结果 为 负 时 置 1)。 

e CR1L1j ,用 于 表示 GT( 大 于 , 当 浮 点 指令 运算 结果 为 正 时 置 1)。 

e CR112], 用 于 表示 EQ( 等 于 , 当 浮 点 指令 运算 结果 为 0 时 置 1)。 

e CR1L3j」 ,用 于 表示 SO( 溢 出 , 当 浮 点 指令 运算 结果 溢出 时 置 1)。 

E500 内 核 的 比较 指令 可 以 使 用 CR 寄存 器 的 全 部 CRn 字段 (n 从 0 到 7) 保 存 比 较 指 令 的 
结束 状态 。 在 比较 指令 如 cmp 指令 后 ,一般 会 紧 跟 着 一 条 跳 转 指令 ,如 bc 指令 。 其 中 cmp 指 
令 可 以 选择 使 用 CR 寄存 器 的 指定 的 CRn 字段 存放 比较 指令 的 结果 状态 ,bc 指令 也 可 以 选择 
使 用 CR 寄存 器 的 指定 的 CRn 中 的 状态 进行 跳 转 ,一般 来 说 bc 指令 选择 的 CRn 和 cmp 中 指 
定 的 CRn 相同 。 比 较 指 令 使 用 的 CRn 字段 的 定义 如 下 所 示 。 

e CRnL0] ,用 于 表示 LT( 小 于 , 当 比 较 结果 为 负 时 置 1)。 

e CRnl1] ,用 于 表示 GT( 大 于 , 当 比 较 结果 为 正 时 置 1)。 

e CRnL2」 ,用 于 表示 EQ( 等 于 , 当 比 较 结果 为 0 时 置 1)。 

e CRnL3] ,用 于 表示 SO( 溢 出 , 当 比 较 结果 溢出 时 置 1)。 

比较 指令 和 跳 转 指令 通常 由 编译 器 从 CR 寄存 器 中 选择 合适 的 CRn 字段 ,程序 员 也 可 以 
书写 汇编 语言 ,在 CR 寄存 器 中 选择 合适 的 CRn。 如 果 在 比较 指令 和 跳 转 指 令 不 选择 CR 寄 
存 器 的 CRn 字段 时 ,这 些 指令 将 使 用 CR0 字段 。 

CR 寄存 器 的 这 一 特性 对 于 布尔 运算 指令 ,如 {f=((a>0)&& (b=1)&& (c<0)&& (Cd 
-e)) ,有 一 定 的 优化 作用 。 比 如 编译 器 可 以 将 a>0 的 运算 结果 放 和 人 CR0,b=1 的 运算 结果 
放 入 CR1,c<0 的 运算 结果 放 入 CR2 ,将 d-e 的 结果 放 和 人 CR3 ,之 后 使 用 crand 指令 合并 存放 
这 些 CRn 字段 的 比较 结果 并 放 人 布尔 变量 f 中 。 

除 此 之 外 ,PowerPC 处 理 器 提供 的 多 个 CRn 字段 还 可 以 有 效 地 避免 多 条 比较 指令 在 使 用 
CR 寄存 器 时 产生 的 相关 性 。 

我 使 用 gcc 编译 器 作 了 各 种 各 样 的 多 元 判断 语句 的 实验 ,发 现 gcc 编译 器 似乎 并 没有 使 用 
PowerPC 处 理 咽 中 提供 的 cror 和 crand 指令 为 多 元 判断 语句 和 布尔 运算 做 出 优化 。 也 许 这 是 
因为 gcc 编译 项 需 要 照顾 其 他 体系 结构 处 理 器 ,因此 只 使 用 一 些 绝 大 多 数 处 理 器 都 具有 的 汇 
编 指令 。 也 许 Diab C 编译 器 能 够 充分 利用 PowerPC 的 指令 集 。 对 此 有 兴趣 而 且 具 有 Diab C 
编译 船 的 读者 ,可 以 自己 做 几 个 关于 这 方面 的 试验 。 

3. 其 他 指令 状态 寄存 器 

(1) CTR 寄存 髓 。CTR 寄存 器 用 来 保存 循环 变量 ,并 可 以 根据 条 件 转移 指令 bclr 的 BO 
操作 数 自动 进行 减 一 操作 。 因 此 循环 语句 中 需要 使 用 CTR 寄存 器 。 此 外 CTR 寄存 器 还 可 以 
用 作 保 存 bcctr 指令 的 目标 地 址 ,用 来 实现 长 跳 转 。 

(2) LR 寄存 紫 。LR 寄存 器 用 来 存放 函数 的 返回 地 址 。 某 些 转移 指令 可 以 自动 将 LR 寄 
存 带 赋值 为 转移 之 后 的 指令 地 址 。 每 一 个 转移 指令 的 编码 中 都 有 一 个 LK 位 。 如 果 LK 为 
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1 ,转移 指令 就 会 将 当前 指令 地 址 加 4 对 LR 寄存 器 进行 设置 。 

LR 寄存 右 还 可 以 用 作 保 存 bclr 指令 的 目标 地 址 ,用 来 实现 长 跳 转 。 在 应 用 中 ,bclr 指令 
” 比 bcctr 指令 更 和 常见。LR 寄存 器 经 常 被 用 来 实现 函数 的 调用 与 返回 。 如 图 2-2 所 示 ,假定 "bl 
fun1” 指令 的 地 址 为 0x48000000, 当 执 行 “bl fun1” 指 令 后 , LR 寄存 器 的 值 将 被 设置 为 
0x48000004。 在 funl 函数 执行 完毕 后 ,需要 使 用 blr 指令 将 程序 跳 转 到 LR 寄存 器 所 指定 的 
地 址 中 。 


0x48000000 bl funl 


blr 
图 2-2 使 用 LR 寄存 器 实现 函数 调用 


(3) XER 寄存 器 。XER 寄存 器 存放 整数 运算 操作 的 进位 溢出 信息 以 及 特殊 的 加 载 和 存 
储 指 令 ,lswx 和 stswx 指令 中 传输 的 字 厄 数 。 XER 寄存 器 共有 3 个 有 效 位 和 一 个 有 效 字 段 ， 
分 别 为 SO(Summary Overflow ,第 32 位 ),OV(Overflow, 第 33 位 ) ,CA(Carry, 第 34 位 ) 和 No. 
of Bytes 字段 (第 S7 一 63 位 )。 | 

其 中 ,SO 位 为 1 表示 某 条 算术 运算 指令 曾经 将 OV 位 置 1,CR 寄存 器 中 的 SO 位 就 是 复 
制 了 XER 寄存 器 中 的 SO 位 ,SO 位 一 旦 被 设置 为 有 效 ,将 不 会 被 清除 ,直到 程序 使 用 mtspr 或 
者 mcrxr 指令 进行 清除 。 

OV 位 为 1 表示 有 符号 数 的 算术 运算 出 现 溢出 。PowerPC 人 处理 帮 使 用 补 码 表 示 有 符号 
数 ,并 且 使 用 双 符 号 位 (对 应 PowerPC 处 理 器 ,Carry out 的 32 和 33 位 ) 表 示 算 术 运 算 的 结果 是 
正 数 还 是 负数 。 如 果 双 符号 位 为 00 表示 算术 运算 的 结果 是 正 数 ;为 11 表示 算术 运算 的 结果 
是 负数 ; 01 表示 算术 运算 的 结果 出 现 正 溢出 ;10 表示 算术 运算 的 结果 出 现 负 洲 出 。 当 计算 结 
果 出 现 正 溢出 或 者 负 溢 出 时 ,OV 位 被 置 1; 如 果 计 算 结 果 没 有 出 现 溢 出 ,OV 位 被 置 0。 

CA 位 为 1( 即 Carry out 的 32 位 为 1) 表 示 无 符号 算术 运算 产生 了 进位 。 

进位 与 溢出 是 完全 不 同 的 两 个 概念 ,大 学 的 计算 机 原理 的 课程 已 经 将 这 两 个 概念 阐述 得 
十 分 清楚 。 但 是 也 许 有 一 些 程序 员 似 乎 已 经 忘记 了 这 两 个 概念 之 间 的 区 别 。 为 此 本 书 再 次 对 
这 两 个 概念 进行 强调 ,进位 标志 表示 无 符号 数 的 运算 结果 超出 了 范围 ,但 是 运算 结果 依然 正 
确 ;而 溢出 标志 表示 有 符号 数 的 运算 结果 超出 了 范围 ,运算 结果 已 经 不 正确 了 。 在 算术 运算 
中 ,应 该 使 用 进位 还 是 溢出 由 程序 员 决 定 。 具 体 地 说 ,如 果 参 加 算术 运算 的 操作 数 是 无 符号 
数 ,程序 员 应 该 关心 进位 位 ;如 果 参 加 算术 运算 的 操作 数 是 有 符号 数 ,程序 员 应 该 关心 溢出 位 。 

No. of Bytes 字段 用 来 存放 lswx 和 stswx 指令 中 传送 的 字 节 数 。 

(4) ACC 寄存 器 。 该 寄存 器 是 一 个 64 位 寄存 器 ,用 来 保存 E500 内 核 SPE 指令 的 乘 加 指 
令 MAC(Multiply Accumulate) 的 计算 结果 。 


2.2.2 SLR 寄存 器 组 


SLR 是 E500 内 核 中 重要 的 寄存 器 组 。 该 组 寄存 器 中 包括 CPU 配置 、 内 存 管理 ,中断 控 

制 \.SPR 寄存 器 等 一 系列 寄存 器 。 在 E500 内 核 中 , 主要 使 用 两 条 指令 用 于 操作 这 些 寄存 器 ， 

分 别 是 mtspr 和 mfspr 指令 ,mtspr 的 作用 是 对 SLR 中 的 寄存 器 进行 赋值 ,mfspr 的 作用 是 对 
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SLR 中 的 寄存 器 进行 读 取 。E500 内 核对 SLR 寄存 器 进行 编 址 访问 ,如 TBL 寄存 器 的 地 址 为 
268 ,而 TBU 寄存 器 的 地 址 为 269 ,在 PowerPC 使 用 spr268 和 spr269 表示 TBL 和 TBU 寄存 
和合 。E500 内 核 使 用 “mtspr 268，r3” 指 令 对 TBL 霖 存 锅 进行 赋值 , “mfspr r3，268” 指 令 读 取 
TBL 寄存 器 。 
1. MSR 寄存 器 
MSR 寄 仓 希 用 来 设置 E500 内 核 的 当前 使 用 状态 。 这 个 寄存 器 基本 上 是 初始 化 E500 内 
核 时 第 一 个 被 配置 的 寄存 器 。 该 寄存 器 在 E500 内 核 中 非常 重要 。MSR 寄存 器 属于 SLR 寄 
存 需 组 ,但 是 mtspr 和 mfspr 指令 不 能 访问 该 寄存 器 ,E500 内 核 使 用 专门 的 指令 mtmsr 和 
mfmsr 指令 对 MSR 寄存 器 进行 访问 。 上 文 对 MSR 的 PR 位 进行 了 详细 介绍 ,下面 将 介绍 其 
他 位 。 
e@ UCLE( User-mode Cache Lock Enable, 第 37 位 )。 该 位 为 1 时 ,程序 运行 在 PowerPC 处 
理 磊 用 户 模 式 时 ,也 可 以 锁定 Cache 行 。 
@ SPE(SPE Enable, 第 38 位 )。 该 位 为 1 时 ,使 能 E500 内 核 的 SPE 部 件 。 
e WE(Wait State Enable, 第 45 位 )。 该 位 与 HID0 的 寄存 器 的 DOZE,NAP 和 SLEEP 位 
联合 使 用 可 以 设置 E500 内 核 进入 等 待 模式 。 
e CE (Critical Enable, 第 46 位 ), ME (Machine Check Enable, 第 51 位 ), DE ( Debug 
Interrupt Enable, 第 54 位 ) 位 用 来 使 能 或 者 关闭 Critical 异常 Machine check 异常 和 调 
试 中 断 。 
@ EE(External Enable, 第 48 位 )。 此 位 为 1 时 ,将 使 能 外 部 中 断 , 为 0 时 屏蔽 外 部 中 断 。 
当 处 理 恬 进入 外 部 中 断 处 理 时 会 自动 关闭 此 位 ,屏蔽 外 部 中 断 , 以 防止 中 断 财 套 。 支 持 
中 断 重 入 的 驱动 程序 需要 在 程序 中 重新 使 能 此 位 。 许 多 操作 系统 需要 频繁 的 改动 EE 
位 。 为 此 ,ES00 内 核 专门 设置 了 wrtee 和 wrteei 指令 对 MSR 寄存 器 的 EE 位 进行 
修改 。 
e IS,DS( 第 58,59 位 )。ES00 内 核 支持 两 个 地 址 空间 ,分别 为 地 址 空间 0 和 地 址 空间 1。1IS 
位 为 1 表示 当前 程序 使 用 的 指令 空间 1;IS 位 为 0 表示 当前 程序 使 用 的 指令 空间 0;DS 位 
为 工 表示 当前 程序 使 用 的 数据 空间 1;DS 位 为 0 表示 当前 程序 使 用 的 数据 空间 0。 
E500 内 核 的 内 存 管理 与 其 他 PowerPC 内 核 有 较 大 的 差别 , 它 不 能 关闭 虚实 地 址 转换 功 
能 。 而 许多 PowerPC 内 核 ,如 603E 内 核 中 可 以 关闭 虚实 地 址 转换 功能 ,在 603E 中 ,IR,DR 
位 与 E500 内 核 的 IS 和 DS 两 位 相对 应 。 但 是 在 603E 内 核 中 IR,DR 位 用 来 使 能 和 禁止 地 址 
与 数据 空间 的 虚实 地 址 转换 。 - : 
MSR 寄存 器 还 有 一 些 其 他 位 ,本 书 对 此 不 再 一 一 叙述 ,这 些 位 的 详细 描述 见 E500 内 核 参 
考 手 册 。 

2. 其 他 SPR 寄存 器 

(1) PVR 寄存 器 (Processor Version 表 2-1 PowerPC 的 版 本 号 
Register) 。 PVR 寄存 器 用 来 存放 当前 处 理 器 
使 用 的 PowerPC 内 核 版 本 号 。PID 寄存 器 
与 处 理 器 内 核 版 本 对 应 如 表 2-1 所 示 。 

(2) SVR 寄存 器 (System Version 
Register) 。 该 寄存 器 用 来 存放 当前 处 理 器 的 
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版 本 号 。 如 MPC8555E 的 SVR 寄存 器 为 0x80790010, MPC8541E 的 SVR 寄存 器 为 
0x807A0010,MPC8560 的 SVR 寄存 器 为 0x80700010。 

PQIII 处 理 龙 的 SVR 寄存 器 的 低 16 位 用 来 表示 PQIII 芯片 的 版 本 号 。 如 MPC8560 
V1.0 版 本 的 芯片 低 16 位 为 0x0010, 而 V2.0 版 本 的 芯片 低 16 位 为 0x0020。PowerPC 工程 
师 在 进行 程序 设计 时 ,必须 关注 SVR 和 PVR 寄存 器 的 值 ,以 确定 正在 使 用 的 SoC 的 版 本 。 

Freescale 为 不 同 版 本 的 PowerPC 处 理 器 提供 了 一 个 Errata( 勘 误 表 )。 这 个 Errata 与 数据 
手册 同样 重要 ,在 设计 PowerPC 处 理 器 系统 时 ,一定 要 仔细 阅读 这 些 Errata。 

到 目前 为 止 ,我 几乎 没有 发 现 Freescale 任何 一 个 版 本 的 PowerPC 处 理 器 没有 Frrata_ 而 
且 对 于 有 些 Errata, Freescale 恐怕 已 经 没有 修正 的 计划 了 。 

因此 ,使 用 PowerPC 处 理 器 的 用 户 必 须要 留意 你 们 可 能 使 用 的 PowerPC 处 理 器 不 一 定 是 
最 新 版 本 的 。 工 程 师 们 一 定 要 选择 合适 的 Errata, 而 不 一 定 是 最 新 的 Errata。 

(3) HIDO 寄存 器 (Hardware Implementation-Dependent Register 0)。HIDO 寄存 器 的 
EMCP 位 为 1 时 使 能 将 使 能 MCP# 引 脚 。 

DOZE, NAP, SLEEP 位 用 于 使 能 与 功 耗 管理 有 关 的 引 脚 。 

TBEN 位 用 于 使 能 TB(Time Base) 和 DEC(Decrementer) 寄 存 器 ,TB 和 DEC 寄存 器 可 以 
用 来 纪录 处 理 器 的 运行 时 间 。 其 中 TB 寄存 器 还 可 以 作为 Benchmark 程序 等 其 他 与 系统 性 能 
有 关 的 测试 程序 使 用 的 计数 器 。 而 DEC 寄存 器 经 常 被 用 作 操 作 系统 的 系统 时 钟 中 断 计 数 器 。 

SEL_TBCLK 位 用 于 选择 是 使 用 处 理 器 的 系统 时 钟 还 是 外 部 RTC 的 时 钟 源 , 由 于 处 理 
内 部 的 系统 时 钟 的 误差 较 大 ,因此 需要 精确 时 钟 的 系统 最 好 使 用 外 部 RTC 时 钟 。 一 般 来 说 一 
个 处 理 禹 系统 中 都 有 独立 的 RTC 器 件 。 

(4) HID1 寄存 器 (Hardware Implementation-Dependent Register 1)。HID1 寄存 器 的 PLL 
_ CFG 字段 用 于 记录 E500 系统 时 钟 (CCB Clock) 与 E500 内 核 时 钟 间 的 比率 。 用 户 还 可 以 访 
问 PQIII 处 理 需 的 另外 一 个 内 存 映 像 的 寄存 器 PORPLLSR 获得 这 个 比率 。 

程序 员 在 编程 时 多 使 用 PORPLLSR 而 不 是 使 用 HID1 中 的 字段 ,HID1 寄存 器 中 的 PLL 
_ CFG 字段 的 定义 可 能 随处 理 器 的 不 同 而 有 所 变化 。HIDL 寄存 器 的 其 他 位 还 可 设置 系统 总 
线 的 奇偶 校 验 和 地 址 广播 等 其 他 功能 。 

(5) 通用 SPR 寄存 器 组 。 这 组 寄存 器 包括 SPRG0-SPRG7 与 USPRG0, 此 组 寄存 器 除 
USPRG0 外 ,其 他 寄存 器 在 用 户 模式 下 只 读 。 

SPRG0~7 是 E500 内 核 中 的 特殊 功能 寄存 器 。PowerPC 处 理 需 处 于 超级 用 户 模式 下 可 
以 对 SPRG0 一 2 寄存 器 进行 读 写 操作 ,处 于 用 户 模式 时 不 能 操作 此 组 寄存 怖 ;PowerPC 处 理 融 
处 于 超级 用 户 模式 下 可 以 对 SPRG3 一 7 寄存 器 进行 读 写 操作 ,处 于 用 户 模式 下 可 以 对 此 组 寄 
存 器 进行 读 操作 。 

需要 注意 的 是 SPRG3~7 寄存 器 有 两 个 地 址 ,一 个 用 于 处 理 器 在 用 户 模式 或 超级 模式 进 
行 读 操作 , 另 一 个 用 于 处 理 器 在 超级 模式 状态 进行 读 写 操作 。 例 如 SPRG4 寄存 句 共 有 两 个 编 
号 260 和 276 ,其 中 260 编号 的 特殊 寄存 器 用 作 超级 模式 或 者 用 户 模 式 进 行 读 操作 , 编号 为 
276 的 特殊 寄存 器 用 作 超 级 模式 下 进行 读 写 操作 。 在 许多 操作 系统 中 使 用 SPRG4W 和 
SPRG4R 分 别 表 示 这 两 个 寄存 器 。 

这 组 寄存 右 主 要 用 于 操作 系统 的 某 些 特定 操作 。 如 在 Linux PowrPC 中 ,SPRG3 用 来 保 
存 当前 进程 的 thread 参数 的 地 址 ,其 他 的 SPR 寄存 器 也 可 以 供 操作 系统 开发 人 员 选 用 ,如 这 
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些 寄存 句 可 以 在 Linux PowerPC 的 中 断 处 理 程序 中 保存 即将 要 使 用 的 GPR 寄存 器 。 系 统 程 
了 员 需 要 从 重地 使 用 这 组 寄存 器 ,一 般 来 说 应 用 软件 工程 师 没 有 使 用 这 组 寄存 器 的 必要 . 
SLR 可 行 蓄 组 中 有 关内 存 管理 和 中 断 系统 将 陆续 在 下 文中 介绍 。 


2.3 E500 内 核 的 常用 指令 


E300 内核 的 指令 长 度 都 是 32 位 。E500 内 核 的 指令 采用 大 端 编码 方式 ,指令 的 第 0 位 是 
MSB(JMost Significant Bit) .第 31 位 是 LSB(Least Significant Bit)。 

在 E500 内 核 中 .指令 的 高 6 位 字段 (第 0 一 5 位 ) 被 称 为 OPCD 字段 (Primary Opcode 
Field)。 根据 OPCD 字段 的 不 同 ,PowerPC 的 指令 集 可 以 分 为 以 下 几 大 类 ， 


2.3.1 I-Form 类 指令 


在 E500 内 核 中 ,无条件 转移 指令 使 用 这 种 指令 格式 ,这 种 指令 格式 相对 较为 简单 . 工 
Form 类 指令 格式 如 下 所 示 : 
0—5 6 一 29 30 31 
OPCD LI AA LK 
I-Form 类 指令 共 包 含 以 下 几 种 指 今 . 
eb LI//AA=0,LK=0 
ba LI//AA=1,LK=0 
ebl LI//AA=0,LK=!1 
bla LI//AA=1,LK=1 
这 类 指令 格式 支持 AA 位 和 LK 位 。 
AA 位 用 来 表示 当前 跳 转 指令 使 用 绝对 地 址 还 是 相对 地 址 进行 跳 转 。 该 位 为 0 表示 LI 
中 存放 的 是 相对 地 址 (该 相对 地 址 是 有 符号 整数 ,用 户 分 析 机 器 码 时 需要 注意 ) ,即将 要 跳 转 的 
指令 地 址 是 当前 指令 地 址 与 LI*4 的 和 ;为 1 表示 LI 中 存放 的 是 绝对 地 址 ,即将 要 跳 转 的 指 
令 是 LI* 4 AA 位 为 1 的 无 条 件 转移 指令 很 少 被 用 户 使 用 。 
LK 位 用 来 表示 指令 执行 后 是 否 修改 LR 寄存 器 。LK 为 1 时 .表示 转移 指令 执行 后 将 当 
前 指令 的 下 一 条 指令 的 地 址 存放 在 LR 寄存 器 中 ,如 果 LK 为 0 时 ,LR 寄存 器 将 不 会 被 修改 ， 
在 汇编 语言 中 bl 指令 使 用 最 多 .bl 指令 可 用 作 函 数 的 调用 指令 ,还 可 以 用 来 获得 下 一 条 
指令 的 有 效 地 址 。 例 如 在 Linux PowerPC 的 内 核 人 口 地 址 使 用 bl 指令 获得 当前 程序 运行 的 
地 址 ,该 程序 如 下 所 示 
bl invstr /*# Find our address # / 
invstr: mflr 16 7x Make it accessible * / 


这 段 程 序 使 用 了 bl 指令 获得 invstr 的 地 址 ,并 将 其 存放 到 通用 寄存 器 r6 中 。 
2.3.2 B-Form 类 指令 


E500 内 核 的 条 件 转移 指令 使 用 这 一 指令 格式 ,这 一 指令 格式 也 支持 AA 位 和 LK 位 。B- 
Form 拓 指 令 格式 如 下 所 示 : 
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0 一 6 一 10 11~15 16~29 30 31 
OPCD BO BI BD AA LK 


B-Form 类 指令 共 包 含 以 下 几 种 指令 : 

ebc BO, BI, BD //AA=0 LK=0 

e bca BO, BI, BD //AA=1 LK=0 

® bcl BO, BI, BD //AA=0 LK=1 

® bcla BO, BI, BD //AA=1 LK=1 

BI 字段 用 来 确定 使 用 CR 寄存 器 CRn 的 字段 中 哪个 状态 位 作为 指令 跳 转 的 条 件 。 其 中 
BI 的 第 0 一 2 字段 用 来 选择 使 用 哪个 CRn 作为 状态 字段 ,该 字段 为 0 时 表示 使 用 CR0 字段 作 
为 转移 指令 使 用 状态 字段 ,为 1 时 表示 使 用 CR1 字段 作为 转移 指令 使 用 的 状态 字段 。 而 BI 
的 第 3 一 4 字段 选择 使 用 什么 条 件 作 为 转移 条 件 , 如 下 所 示 ; 


BI[ 3:4] 描述 

00 使 用 LT 状态 位 用 做 指令 转移 条 件 
01 使 用 GT 状态 位 用 做 指令 转移 条 件 
10 使 用 EQ 状态 位 用 做 指令 转移 条 件 
11 使 用 SO 状态 位 用 做 指令 转移 条 件 


BO 字段 用 来 表示 指令 根据 什么 条 件 进行 跳 转 。 

(1) 第 0 位 。 如 果 此 位 为 1,bc 类 指令 将 不 根据 CR 寄存 器 的 状态 进行 条 件 转移 ,此 时 bc 
指令 只 能 根据 CTR 寄存 器 的 值 为 0 或 者 不 为 0 决定 是 否 进行 条 件 转移 。 程 序 使 用 简单 的 
Loop 循环 语句 时 ,可 以 将 此 位 置 1。 此 位 为 0 时 ,表示 bc 类 指令 将 根据 CR 寄存 器 的 相应 字 
段 和 存放 在 BI 中 的 条 件 决定 是 否 进行 跳 转 。 : 

(2) 第 1 位。 如 果 此 位 为 1, 则 当 指 令 执 行 的 条 件 为 真 时 进行 转移 ,否则 当 指 令 执行 的 条 
件 为 假 时 进行 转移 ,此 位 可 以 用 来 实现 布尔 表达 式 中 的 非 操作 。 在 CR 寄存 器 的 CRn 字段 中 
只 定义 了 LT,GT,EQ 位 ,这 些 位 可 以 实现 “小 于 ”“ 大 于 ”或 “等 于 ”这些 布 尔 条 件 , 如 果 程 序 
需要 实现 “不 小 于 " “不 大 于 ”和 "不 等 于 ”这些 布 尔 条 件 时 ,需要 使 用 此 位 。 例 如 将 此 位 置 为 
0 ,并 将 BIL3:4] 置 为 00, 即 可 实现 “不 小 于 ”这 种 转移 条 件 。 

(3) 第 2 位。 如 果 该 位 为 1 ,执行 bc 指令 时 ,CTR 寄存 器 的 值 保 持 不 变 ;如 果 该 位 为 0, 执 
行 bc 指令 时 ,CTR 寄存 器 将 做 自 减 操作 。 

(4) 第 3 位 。 如 果 此 位 为 1, 表 示 当 CTR 寄存 器 为 0 时 进行 条 件 转 移 。 当 此 位 为 0 时 , 表 
示 当 CTR 寄存 器 为 0 时 进行 条 件 转移 。 

(5) 第 4 位 :“y” 位 。 此 位 用 来 支持 静态 分 支 预 测 功 能 。 此 位 为 1 时 表示 此 转移 语句 预先 
将 被 判断 为 执行 转移 功能 ,处 理 器 将 预 取 转移 指令 目标 地 址 后 的 指令 ,并 将 这 些 指令 放 人 缓冲 
队列 ; 当 此 位 为 0 时 表示 此 转移 指令 被 预先 判断 为 不 被 执行 ,因此 不 需要 做 额外 的 指令 预 取 
操作 。 

E500 内 核 不 支持 指令 的 静态 预 取 操作 ,因此 不 支持 这 一 位 。E500 内 核 使 用 指令 动态 预 
取 来 增强 转移 语句 命中 的 效率 。 

E500 内 核 的 B-Form 类 指令 集 一 共 使 用 了 4 条 指令 描述 了 所 有 的 条 件 转 移 指 令 。 如 使 用 
“bc 16, 0，BD 表示 将 CTR 寄存 器 进行 自 减 操作 ,如 果 CTR 不 为 0 则 进行 跳 转 ;使 用 “bc 4， 
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0，BD 表示 运算 或 比较 绪 果 为 0 时 进行 跳 转 。 这 种 指令 实现 方式 便于 IC 设计 工程 师 对 指令 
集 进 行 设 计 。 但 是 对 于 使 用 汇编 语言 的 软件 工程 师 ,编写 这 种 格式 的 指令 是 十 分 困难 的 。 

为 此 E500 内 核 使 用 了 许多 助 记 符 用 来 表示 各 种 条 件 跳 转 指令 ,如 使 用 “bdnz” 助 记 符 表示 
“bc 16, 0, BD”, 使 用 “beq’ 助 记 符 表示 “bc 4, 0, BD”。 常 用 的 助 记 符 还 有 lt( 小 于 ) ,le( 小 于 等 
于 ) ,eq( 等 于 ) ,so( 淤 出) 等。 

在 使 用 条 件 转移 指令 的 助 记 符 进行 编程 时 ,可 以 指定 使 用 CR 寄存 器 的 哪个 字段 进行 转 
移 ,如 “beq crS,， BD”。 使 用 助 记 符 也 可 以 控制 程序 是 否 进行 静态 分 支 预测 ,为 此 助 记 符 后 面 
可 以 加 上 “+” 和 “一 ”两 个 符号 。' + “表示 转移 被 静态 预测 为 真 ,选择 转移 ;- ”表示 转移 被 静 
态 预 测 为 假 , 如 “beq+ ”或 “beq 一 ”。 | 

需要 再 次 提醒 读者 注意 的 是 ,在 PowerPC 处 理 器 中 ,转移 指令 非常 少 ,常用 的 条 件 转 移 指 
令 只 有 bc 和 bcl。 其 他 的 条 件 转移 指令 ,如 beq,bdnz,ble 指令 等 ,不 过 是 助 记 符 而 已 ,并 不 是 
真正 的 转移 指令 。 


2.3.3 SC-Form,D-Form 与 DS-Form 类 指令 


SC-Form 类 指令 用 来 实现 系统 调用 指令 。 在 Linux 系统 中 ,系统 调用 是 用 户 程序 进入 内 
核 空间 的 一 种 方式 ,E500 内 核 使 用 “se” 指令 实现 系统 调用 。 这 类 指令 较为 简单 ,此 处 不 再 对 
此 进行 说 明 。 

D-Form 类 指令 主要 包括 以 下 几 类 指令 。 

e 对 存储 器 (包括 寄存 器 ) 进 行 读 写 的 指令 。 

e@ 立即 数 的 算术 运算 和 逻辑 运算 指令 。 

由 上 所 示 ,D-Form 类 指令 包括 对 存储 器 的 直接 读 写 操作 指令 ,也 包括 双 过 加 减 , 逻 辑 运 算 
后 再 对 存储 器 进行 操作 的 指令 

D-Form 类 指令 由 一 个 16 位 的 立即 数 ,两 个 寄存 器 索引 (10 位 ) 和 6 位 的 opcode 组成。 其 
中 16 位 的 立即 数 可 以 作为 地 址 偏 移 也 可 以 作为 算术 运算 的 操作 数 。D-Form 类 指令 格式 如 下 
所 示 : 


0~5 6 一 10 11~15 16~31 
OPCD RS RA D 


RS 字段 用 来 索引 存放 该 指令 运算 结果 的 寄存 器 ,RA 字段 用 来 索引 存放 该 指令 所 需要 数 
据 源 的 寄存 器 ,而 D 用 来 存放 该 指令 所 需要 的 另外 一 个 数据 源 ,立即 数 。 在 D-Form 类 指令 
中 一定 包含 一 个 立即 数 。 

D-Form 类 的 典型 指令 有 以 下 几 种 : 

(1)“lwz RT,D(RA)”。lwz 指令 将 从 寄存 器 RA+D 指定 的 地 址 中 读 取 一 个 32 位 数据 ， 
然后 这 个 数据 传递 给 寄存 器 RT。 此 外 还 有 对 16 位 ,8 位 数据 进行 读 取 的 指令 lbz,lhz 和 lha。 

(2)“stw RS, D(RA)”。stw 指令 将 寄存 器 RS 中 的 32 位 数据 内 容 写 人 寄存 器 RA+D 所 
指定 的 地 址 中 去 。 此 外 还 有 对 16 位 ,8 位 数据 进行 读 取 的 指令 stb,sth 指令 

(3)“lwzu 与 stwu 指令 ”"。 这 两 条 指令 的 使 用 方法 与 lwz 和 stw 指令 的 格式 相同 ,只 是 这 
类 指令 在 执行 后 会 将 RA 寄存 器 的 值 更 新 为 RA+D。 这 类 指令 对 于 实现 数据 栈 的 压 栈 和 出 
栈 操作 有 所 帮助 。 
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如 指令 "stwu rl,，S_FRAME (rl) "可 以 将 寄存 器 rl 的 值 放 人 rl +S_FRAME 后 的 同时 
将 守 存 前 rl 的 值 修改 为 rL+S_FRAME。 从 而 程序 员 只 使 用 一 条 指令 即 完成 了 将 数据 压 人 
堆栈 所 需要 的 一 些 基本 操作 。 

PowerPC 处 理 冀 没有 专门 的 堆栈 指针 寄存 器 ,而 是 使 用 寄存 器 rl 模拟 堆栈 指针 寄存 器 ， 
关于 PowerPC 栈 帧 结构 的 知识 请 参考 2.4.3 节 。 此 类 指令 中 也 有 对 8 位 和 16 位 数据 进行 操 
作 的 指令 sthu,lhzu,lbzu 和 stbu。 

(4) Imw RT, D(RA)。lmw 指令 将 RA+D 地 址 的 数据 依次 传递 到 RT 一 R31 中 ,所 传递 
32 位 数据 的 数量 为 31- 工 个 。 

(5) stmw RS, D(RA)。stmw 是 将 RT 一 R31 的 数据 依次 传递 到 RAY+D 的 地 址 中 去 。 使 
用 这 种 批量 传送 时 务必 要 注意 存储 器 边界 的 检查 和 所 使 用 的 通用 寄存 器 是 否 需 要 进行 备份 

(6) cmpi BF，L，RA, SI 与 "cmpli BF, L, RA, Ul”。cmpi 和 cmpli 指令 将 寄存 器 RA 
与 立即 数 SIZUI 进行 比较 .然后 将 比较 指令 产生 的 状态 放 人 BF 所 指定 的 CR 寄存 器 的 不 同 字 
段 里 ,CR 寄存 器 里 有 8 个 CRn 子 段 可 以 由 3 位 的 BF 指定 。L 用 来 表示 是 进行 32 位 还 是 64 
位 比较 ,对 于 E500 内 核 ,L 始终 为 0。cmpi 和 cmpli 的 区 别 在 于 一 个 是 算术 比较 ( 带 符号 位 )， 

-个 是 逻辑 比较 (不 带 符 号 位 )。 

(7) “tw TO, RA, RB "。 此 指令 被 称 为 自 陷 (Trap) 指 令 , 该 指令 对 一 些 Trap 条 件 进行 测 
试 ,如 果 条 件 成 立 ,处 理 器 将 进入 系统 的 Trap 程序 ,然后 对 这 些 Trap 事件 进行 处 理 。 

在 下 500 内核 中 ,TO 字段 一 共有 5 位 ,第 0 一 4 位 分 别 表 示 LTS( 有 符号 数 比 较 , 小 于 )， 
GTS( 有 符号 数 比 较 . 大 于 ).EQ( 等 于 ),LT( 无 符号 数 比 较 , 小 于 ) 和 GT( 无 符号 数 比 较 , 大 
于 )。 在 使 用 tw 指令 时 ,用 户 可 以 根据 需要 对 TO 字段 进行 设置 ,如 将 TO 设置 为 1, 表示 如 果 
RA 寄存 器 中 的 无 符号 数值 大 于 RB 寄存 器 中 的 数值 , 则 处 理 器 进入 Trap 处 理 程序 。 

当 处 理 器 执行 “tw 31, z0, 0”" 时 ,处 理 器 将 无 条 件 进 行 Trap 处 理 程序 ,“trap” 助 记 符 等 效 
于 “tw 31, 区 ,10”"。ES00 内 核 使 用 Program lnterrupt Exception 异常 处 理 函 数 处 理 Trap 事件 。 

此 外 ,D-Form 类 指令 还 包含 了 许多 用 于 算术 和 逻辑 运算 的 指令 ,这 些 指 令 都 要 求 使 用 一 
个 立即 数 ,同时 E500 内 核 的 DForm 指令 在 进行 计算 时 还 可 以 将 立即 数 左 移 16 位 。 

这 样 做 的 主要 目的 是 为 了 处 理 32 位 立即 数 。E500 内 核 中 一 条 指令 只 有 32 位 ,因此 必须 
通过 两 条 指令 才能 将 一 个 32 位 的 立即 数 赋值 到 一 个 通用 寄存 器 中 。 此 时 程序 可 以 先 处 理 高 
16 位 ,然后 再 将 高 16 位 左 移 16 位 ,与 低 16 位 相 或 就 可 以 完成 一 个 32 位 立即 数 的 赋值 操作 。 
以 下 程序 可 以 将 32 位 的 立即 数 start kernel 复制 到 通用 寄存 器 16 中 。 

lis 16，start kernel(@h 
on 16, WH, start_ kernel (| 

D-Form 类 指令 集 定 义 了 许多 有 关 算 术 和 侵 辑 运算 的 指令 ,在 这 些 算术 指令 的 尾部 还 有 
许多 后 缀 ,如 “.”",“c",“o”"。 这 些 后 级 又 可 以 相互 组 合 。 

如 addi 指令 就 有 许多 衍生 指令 “addi.”,“addic”,“addic.,”,“addio” 等 等 。 这 些 后 绎 的 含义 
如 下 所 示 。 

9 后 级 ." 表 示 addi 指令 的 结果 将 更 新 CR 寄存 器 。 

9 后 级 "c" 表 示 addic 指令 的 结果 将 影响 CA 位 。 
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e 后 缀 “o "表示 addo 指令 的 结果 将 更 新 SO 和 OV 位 。( 注 意 在 XO-Form 类 指令 包含 带 
有 后 缀 “o ”的 指令 ,而 D-Form 类 指令 没有 带 有 后 级“o” 的 指令 )。 

对 于 任何 程序 员 来 说 ,编写 汇编 程序 都 相当 困难 。 在 PowerPC 处 理 器 中 , 编写 汇编 程序 
更 加 费力 。 如 果 程 序 员 必 须 编写 汇编 程序 ,可 以 首先 编写 一 个 C 程序, 然后 反 汇编 出 来 ,再 加 
以 修改 。 不 过 即便 如 此 ,PowerPC 程序 员 们 最 好 也 要 了 解 一 些 用 作 算术 运算 的 汇编 指令 。 

DS-Form 类 指令 可 以 用 来 对 双 字 (64 位 数据 ) 进 行 处 理 。 主 要 的 指令 有 lwa( 低 32 位 读 操 
作 , 与 lwz 指令 在 计算 数据 有 效 地 址 时 有 些 不 同 ) ,1d(64 位 读 操作 ) ,std(64 位 写 操作 ) ,ldu(64 
位 读 更 新 操作 ) ,stdu(64 位 写 更 新 操作 )。 与 D Form 类 指令 类 似 ,DS-Form 类 指令 也 包含 一 
个 立即 数 。E500 内 核 不 支持 DS-Form 类 指令 。 


2.3.4 X-Form 类 指令 


E500 内 核 中 X-Form 类 指令 的 数量 最 多 。D-Form 类 指令 和 DS-Form 类 的 指令 中 的 每 一 
条 指令 对 应 一 条 在 X-Form 类 指令 中 的 指令 。 除 此 之 外 ,X-Form 类 指令 还 有 一 些 专用 的 指 
令 。X-Form 类 典型 的 指令 格式 如 下 所 示 


0 一 3 6 一 10 11~15 16~20 21 一 30 31 
OPCD RS/RT RA RB XO Rc 


可 见 ,X-Form 类 指令 与 D-Form 类 指令 格式 相似 ,只 是 X-Form 类 指令 将 D-Form 类 指令 
的 也 字段 拆 分 为 RB、XO 字段 和 Re 位 。 

X-Form 类 指令 格式 中 的 RB 和 RS 字段 存放 源 操作 数 寄存 器 的 索引 ,RT 字段 用 来 存放 目 
的 操作 数 寄存 器 的 索引 ,而 RA 字段 既 可 以 存放 源 操作 数 寄存 器 的 索引 ,也 可 以 存放 目的 操作 
数 寄存 器 的 索引 。XO 字段 用 来 存放 X-Form 类 指令 扩展 的 OPCD。Rec 字段 为 1 表示 当前 指 
令 的 运行 结果 将 改变 CR 寄存 器 ,具有 “. "后缀 的 指令 其 Re 位 为 1。 

X-Form 类 中 的 许多 指令 与 D-Form 类 中 的 指令 一 一 对 应 ,用 法 也 基本 相同 ,只 是 将 D- 
Form 类 指令 中 的 立即 数 替换 成 为 RB,XO 字段 和 Rc 位 。X-Form 类 的 典型 指令 如 下 所 示 。 

(1) 存储 器 访问 类 指令 。 如 lbzx, lhzx, lhax, lwzx, stbx， sthx， stwx, lbzux, lhzux, lhzux, 
lwzux, stbux, sthux, stwux 指令 等 。 这 些 指 令 与 D-Form 类 的 lbz， stb 等 一 系列 指令 一 一 对 应 ， 

只 是 多 了 “x” 指 令 后 级 。 与 DForm 指令 不 同 ,这 一 类 指令 在 进行 地 址 计算 时 ,不 使 用 立即 数 ， 
而 是 将 立即 数 蔡 换 成 寄存 器 。 相 比较 而 言 ,D-Form 类 的 存储 器 访问 指令 更 加 常用 。 

(2) 字 节 序列 交换 指令 。lhbrx ,lwbrx,sthbrx,stwbrx 指令 。 这 一 类 指令 的 主要 作用 是 调 
整 字 节 序列 。 如 “lhbrx RT,RA,RB" 指令 是 将 RA+RB 地 址 (或 者 RB 寄存 器 ) 存 放 的 16 位 数 
据 的 高 8 位 和 低 8 位 进行 交换 然后 将 结果 存放 人 RT Se 

(3) 字符 串 操 作 指 令 。lswi,1lswx,stswi 和 stswx 指令 一 系列 指令 可 以 对 字符 串 进 行 
操作 。 使 用 此 类 指令 时 需要 注意 ， 避 将 用 巧合 用 此 连续 的 通用 寄存 器 资源 。 

(4) 比较 类 和 Trap 指令 。 如 cmp,cmpl,tw 指令 ,这 些 指令 的 使 用 方法 与 D-Form 类 中 对 
应 指令 的 使 用 方法 类 似 。 

(5) 逻辑 算术 运算 类 指令 ,and,or,xor,nand,nor,eqv 等 等 。 这 些 指令 己 D-Form 类 的 同类 
指令 对 应 。 

(6)“cntlzw RA,RS” 指 令 。 该 指令 用 来 找 出 RS 寄存 器 中 第 一 个 不 是 0 的 位 ,然后 将 此 位 
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的 位 序 存 人 RA 中 。 该 指令 可 以 用 来 实现 LOG2N 运算 ,Linux PowerPC 充分 利用 了 这 条 指令 
有 效 的 提高 了 FFB 算法 的 检索 速度 。 

(7)“popcntb RA, RS 指令。 该 指令 计算 RS 寄存 器 中 存放 的 8 个 字 节 中 每 一 个 字 节 里 有 
多 少 个 1, 并 将 相应 的 结果 存放 在 RA 的 对 应 字 节 中 。E500 内 核 不 支持 该 指令 。 

(8) 移 位 类 指令 。 如 sld,slw 指令 等 。 注 意 D-Form 类 没有 移 位 类 指令 。 


2.3.5 XL-Form 类 指令 


XL-Form 类 指令 支持 条 件 转 移 指令 ,与 B-Form 类 条 件 转 移 不 同 ,此 类 指令 使 用 LR 寄存 
店 或 者 CTR 寄存 器 ,而 不 是 使 用 16 位 立即 数 进行 跳 转 ,因此 可 以 用 来 实现 32 位 长 跳 转 。XL_- 
Form 类 条 件 转 移 指 令 的 格式 如 下 所 示 : 


0~5 0 一 10 11~15 16~18 19 一 20 21 一 30 31 
OPCD BO BI 一 BH 16 或 者 528 LK 
所 支持 的 指令 有 以 下 几 种 : 
bclr BO，BI，BH //LK=0, 第 21 一 30 字段 为 16 
bclr BO， BI， BH //LK=1, 第 21 一 30 字段 为 16 
bcctr BO， BI， BH /ELK=0, 第 21 一 30 字段 为 528 
bcctrl BO, BI, BH [ELK=1, 第 21 一 30 字段 为 528 


X-Form 类 指令 的 BO 和 BI 字段 与 B-Form 类 指令 中 的 BO 和 BI 的 定义 相同 ,LK 位 为 1 
时 表示 跳 转 指令 执行 后 LR 寄存 器 指向 下 一 条 指令 的 地 址 (当前 指令 地 址 加 4) ,BH 字段 用 于 
静态 分 支 预测 ,ES500 内 核 的 XL-Form 类 指令 不 支持 这 一 字段 。 

当 条 件 满足 时 ,bclr 和 bclrl 指令 使 用 LR 寄存 器 进行 长 跳 转 ,而 bcctr 和 bcctrl 指令 使 用 
CTR 寄存 器 进行 长 跳 转 。 

与 B-Form 类 指令 类 似 ,XL-Form 类 条 件 转 移 指令 也 使 用 了 许多 助 记 符 , 如 用 “blr” 表 示 
“bclr 20, 0 。XL-Form 类 指令 可 以 和 I-Form 类 指令 协作 完成 C 函数 的 调用 和 返回 。XL- 
Form 指令 还 可 以 支持 CR 寄存 器 不 同 的 字段 的 与 .或 . 异 或 、 同 或 等 操作 ,也 可 以 对 CR 寄存 器 
相应 进行 读 取 操 作 。 

XL-Form 类 操作 CR 寄存 器 指令 的 格式 如 下 所 示 : 


0 一 5$ 6 一 10 11 一 15 16 一 20 21~30 31 
OPCD BT BA BB 257/449/193/2250 ~ 
所 文 持 的 指令 有 以 下 几 种 : 


crand BT， BA，BB /第 21~30 字段 为 257,BT 一 BA & BB 

cror BT，BA，BB /第 21~30 字 段 为 449,BT 一 BA | BB 

crxor BT， BA， BB /第 21~30 字段 为 193,BT < BADPB 

crnand BT，BA，BB /第 21~30 字 段 为 223,BT 一 ! (BA & RB) 
mcrf BF,，BFA /第 21~30 字段 为 0,CRMH<e CR 
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2.3.6 XFX-Form,XFL-Form,XS-Form,XO-Form 与 A-Form 类 指令 


XFX-Form 类 和 包括 mtspr,mfspr,mtcfr,mfcr,mtocrf 指令 。 用 于 访问 SPR 寄存 器 和 CR 寄 
存 器 ，XFX-Form 类 条 件 转移 指令 的 格式 如 下 所 示 : 
心 一 3 6 一 10 L1 一 20 21 一 加 31 
OPCD RT sprxtbr XO a 


XO-Form 类 指令 用 来 支持 带 进位 的 算术 运算 指令 和 乘除 法 指令 。XO-Form 类 条 件 转移 
指令 的 格式 如 下 所 示 : 


0—3 6 一 10 lli=~-13 16 一 20 2] 22 一 30 31 
OPCD RT RA RB OF XD Re 


XO-Form 类 的 典型 指令 有 以 下 几 类 : 

@ addo. ,subfo. ,addco. , subfco. 指令 ,此 类 指令 的 结果 将 影响 CA, SO,OV 位 和 CR0 子 
段 . 

@ addeo. ,subfeo. ,addzeo. ,subfzeo. 指令 ,此 类 指令 除了 可 以 影响 CA,SO,OV 位 和 CR0 
字段 外 .还 可 以 将 CA 位 参与 加 减 运 算 . 

9 mullw,divw 指令 ,此 类 指令 用 作 乘除 运算 。 

A-Form 类 指令 用 作 浮 点 运算 ,典型 指令 有 fadd.fsub, fmul 和 fdiv 指令 。E500 内 核 不 支 

持 此 类 指令 ,同时 E500 内 核 也 不 文 持 XS-Form 类 指令 . 


2.3.7 M-Form 类 指令 


M-Form 类 指令 的 主要 作用 是 对 选 定 的 字段 进行 循环 左 移 并 做 一 些 相应 的 掩 码 操作 。 该 
类 指令 是 PowerPC 指令 集 的 精华 ,包含 了 一 组 非常 强大 的 指令 集 。 汇 编 语言 工程 师 必须 要 熟 
练 沿 握 该 类 指令 ，。 

在 这 类 指令 中 ,rlwimi 指令 最 为 常用 ,该 指令 格式 如 下 所 示 : 


日 一 3 6 一 10 二 16 一 加 光一 了 3 26 一 3 31 
OPCD RS RA SH MB ME Re 
该 指令 的 使 用 格式 为 "rlwimi RA,RS,SH,MB,ME" ,其 功能 描述 如 下 所 示 
n<— SH 


r < ROTLy( (RS)32:63, n) 
m=— MASK(MB+ 32, ME + 32) 
RA<—Ir&@m| (RA)&™ mm 


该 段 描述 的 详解 如 下 : 
@ rlwimi 指令 首先 将 存放 在 RS 寄存 器 中 的 数据 循环 左 移 SH 位 ,并 将 此 绪 采 赋 于 r: 
9 之 后 使 用 MASK 函数 计算 掩 码 m,MASK(MB+32，ME+32) 表 示 将 一 个 数据 的 32 一 
63 位 中 的 第 MB+ 32 一 ME + 32 字段 置 1 ,其 他 字段 置 0, 然 后 再 将 此 数值 赋 于 me。 
e@ 如 果 ME 的 数值 小 于 MB, 则 将 第 ME+32 与 MB+32 之 间 的 字段 置 0( 不 包括 ME+32 
和 MB+32 位 ), 其 他 宇 段 置 1。 最 后 将 r&m | (RA) 芝 一 mn 的 结果 赋 于 有 RA。 该 指令 的 
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图 解 如 图 2-3 所 示 。 


RS 





1 rlwimi RA, RS. SH, MB, ME 


| 
| 
| 
] 
| 
| 
32 MB+32 / ME+32 63 
| ! 
| | 





图 2-3 ME 大 于 或 者 等 于 MB 时 的 rlwimi 指令 


当 ME 大 于 或 者 等 于 MB 时 rlwimi 指令 的 执行 流程 ,即将 RS 寄存 器 中 的 阴影 部 分 平移 
到 RA 寄存 器 中 ,RA 寄存 器 不 在 阴影 部 分 的 字段 保持 不 变 。 
当 ME 小 于 MB 时 rlwimi 指令 如 图 2-4 所 示 。 


32 ME +32 MB +32 63 


RS 






~ TIwimiRA, RS, SH, MB, ME 
一 ~ / 


—_ 
ou 


MB+32 _/ 63 


图 2-4 ME 小 于 MB 时 的 rlwimi 指令 


M-Form 类 指令 还 包含 另 一 条 重要 的 指令 rwinm。 其 指令 格式 、 使 用 方法 与 rlwimi 指令 
完全 相同 。 

这 两 条 指令 的 主要 区 别 在 于 指令 运行 结束 后 对 RA 寄存 器 的 赋值 不 同 。 

rlwinm 指令 最 后 将 RA 寄存 器 赋值 为 r & m 而 不 是 rf && m | (RA)& 一 m, 即 rlwinm 指 
令 结束 后 图 2-3 和 2-4 中 的 空白 字段 将 被 填充 为 0。 该 指令 的 主要 作用 是 提取 RS 寄存 器 中 的 
某 些 字段 ,然后 将 这 一 字段 放 到 RA 寄存 器 的 某 个 位 置 中 。 这 两 条 指令 在 Linux PowerPC 中 
经 常 使 用 ,希望 读者 认真 理解 这 两 条 指令 的 含义 。 

M-Form 类 指令 还 包含 一 条 指令 rlwnm ,该 指令 与 rlwinm 指令 的 区 别 在 于 该 指令 将 左 移 
位 数 保存 在 寄存 器 RB 中 而 不 是 立即 数 SH 中 。 

PowerPC 体系 结构 中 还 定义 了 对 双 字 进行 操作 的 MD-Form 和 MDS-Form 类 指令 ,但 是 
这 类 指令 没有 在 E500 内 核 中 实现 。 
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PowerPC 处 理 器 采用 RISC 结构 ,因此 它 的 基本 指令 集 并 不 很 多 , 只 是 这 些 基 本 指令 可 以 
衍生 出 十 分 庞大 的 指令 集 ,而 令 初学 者 望 而 生 旦 。 

本 市 将 PowerPC 的 指令 集 进行 了 简单 的 归纳 ,希望 对 读者 有 所 帮助 。 同 时 希望 读者 能 够 
次 入 地 学 习 PowerPC 处 理 侣 的 指令 集 。 

对 于 软件 程序 员 , 了 解 一 个 处 理 器 ,首先 需要 学 习 这 个 处 理 器 的 指令 集 。PowrePC 处 理 
全 的 指令 集 是 软件 程序 员 需 要 掌握 的 基础 知识 ,程序 员 至 少 需 要 浏览 一 遍 PowerPC 处 理 器 的 
所 有 指令 集 。 学 习 PowerPC 的 指令 集 并 没有 什么 捷径 ,有 时 程序 员 会 有 很 枯燥 的 感觉 。 


2.4 E500 内 核 的 ABI 


E500 内 核 的 ABI 中 定义 了 E500 内 核 中 支持 的 数据 类 型 ;通用 寄存 器 的 使 用 规则 ; 
PowerPC 栈 幢 结构 ;ELF 文件 的 组 成 等 一 系列 与 编译 器 相关 的 内 容 。 

PowerPC 的 编译 器 必须 遵守 ABI 手册 ,并 按照 ABI 的 规定 来 产生 目标 人 代码。 进行 C 语 言 
与 汇编 语言 混合 编程 的 程序 员 必须 掌握 ABI。 


2.4.1 ES00 内 核 使 用 的 数据 类 型 
ABI 规定 E500 内 核 的 数据 定义 如 表 2-2 所 示 。 


表 2-2 E500 内核 的 数据 类 型 定义 
类 型 ANSIC 小 对 界 


+ 


unsigned char 
signed char 


3 
上 
CO CO 
Oo 
谊 


short 


kD 
ee 


signed short 16 位 


[We 


unsigned short 


(a 


. 


n 


Yk 


signed int 
整 型 数据 
long int 4B 


signed long 32 位 


unsigned int 


by 


unsigned long 


long long 
32 位 
signed long long 


Oo 上 
Ei 


unsigned long long 
any * 


any( * )() 


指针 类 型 32 位 


玉 
. 
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E500 内 核 不 支持 浮 点 运算 ,程序 员 可 以 使 用 定点 运算 模拟 浮 点 运算 ,或 者 使 用 ES00 内 核 
中 的 SPE 部 件 实现 浮 点 运算 。 双 精度 (double) 和 多 精度 (long double) 浮 点 运算 的 速度 较 慢 , 占 
用 的 资源 也 较 多 。 因 此 一 般 来 说 ,很 少 有 处 理 器 直接 支持 双 精 度 和 多 精度 浮 点 运算 。 

对 于 不 支持 双 精 度 和 多 精度 浮 点 运算 的 处 理 器 ,用 户 需 要 编写 程序 对 双 精 度 和 多 精度 浮 
点 进行 处 理 , 并 采取 一 些 特殊 的 方法 提高 双 精 度 和 多 精度 浮 点 运算 的 效率 。 此 外 ,许多 用 户 不 
直接 使 用 double 和 long double 类 型 描述 双 精 度 和 多 精度 浮 点 数 ,而 是 采用 某 些 自 定义 的 数据 
结构 。 


2.4.2 ES00 内 核 寄 存 器 的 使 用 


E500 ABI 手册 规定 如 何 使 用 E500 内 核 的 URL 寄存 器 。 用 户 在 进行 编程 时 ,需要 遵循 
ABI 中 的 这 些 规定 。 

e GPR0。E500 ABI 规定 普通 用 户 不 能 使 用 此 寄存 器 。GCC 编译 器 使 用 GPR0 寄存 器 保 
存 LR 寄存 器 。Linux PowerPC 还 使 用 该 寄存 器 传递 系统 调用 号 码 。 该 寄存 怖 是 一 个 
易 失 型 寄存 顺 (volatile) 。 

e GPR1。E500 ABI 规定 该 寄存 器 保存 堆栈 的 栈 顶 指针 ,PowerPC 处 理事 没有 设置 独立 
的 栈 顶 指针 寄存 器 (Stack Pointer, SP)。 

e GPR2。E500 ABI 规定 一 般 用 户 不 能 使 用 此 寄存 器 。Linux PowerPC 使 用 GPR2 寄存 
器 用 来 保存 当前 进程 的 进程 描述 符 地 址 。 

e GPR3 一 GPR4。E500 ABI 使 用 这 两 个 寄存 器 保存 程序 的 返回 值 。 基 于 E500 内 核 的 函 
数 返回 值 最 多 为 64 位 。 

e GPR3 一 GPR10。E500 ABI 首先 使 用 GPR3 一 GPR10 共 8 个 寄存 器 传递 函数 的 参数 ， 
当 函 数 的 参数 多 于 8 个 时 ,E500 ABI 使 用 堆栈 进行 参数 传递 。 为 提高 函数 的 调用 效 
率 ,程序 员 需要 尽量 将 函数 所 需 参 数 的 个 数控 制 在 8 个 之 内 。 

e GPR11 一 GPR12。E500 ABI 规定 一 般 用 户 不 能 使 用 此 寄存 器 。Linux PowerPC 有 时 使 
用 这 两 个 寄存 器 存放 临时 变量 。GCC 编译 器 没有 使 用 这 两 个 寄存 器 。 

e GPR13。E500 ABI 规定 该 寄存 器 保存 sdata 段 的 基地 址 指针 。Linux PowerPC 可 以 在 
系统 初始 化 阶段 时 使 用 该 寄存 器 存放 临时 变量 。 编 译 器 有 了 时 会 根据 某 些 规则 将 一 些 常 
用 的 数据 放 人 sdata 或 者 sbss 段 中 。 应 用 程序 对 sdata 或 者 sbss 段 的 数据 访问 与 对 数 
据 段 data 和 bss 段 的 访问 机 制 不 同 ,访问 sdata 段 内 的 数据 速度 更 快 些 。 

e GPR14 一 GPR31。E500 ABI 使 用 这 些 寄存 器 存放 一 些 临时 变量 ,在 应 用 程序 中 可 以 目 
由 使 用 这 些 寄存 器 资源 。 有 些 人 喜欢 倒序 使 用 这 些 寄存 器 , 即 首 稳 使 用 GPR31。 有 些 
编译 器 使 用 寄存 器 GPR31 指向 系统 环境 变量 。 


29 


2.4.3 ES00 内 核 的 栈 帧 结构 


PowerPC 处 理 能 没有 在 指令 级 别 上 支持 堆栈 ,比如 没有 专门 的 堆栈 类 寄存 器 及 访问 堆栈 
的 指令 。 许 多 处 理 器 都 没有 专门 的 指令 支持 堆栈 结构 。 但 是 大 多 数 的 程序 员 仍 然 习惯 性 地 寻 
找 类 似 Intel 奔腾 体系 结构 的 push, pop 指令 和 独立 的 堆栈 指针 SP。PowerPC 处 理 器 使 用 存 
储 器 访问 指令 ,如 stwu 和 lwzu 指令 替代 push 和 pop 指令 ,E500 ABI 规定 使 用 寄存 器 GPR1 
模拟 SP 寄存 器 。 

与 Pentium 处 理 器 类 似 ,PowerPC 处 理 器 使 用 堆栈 实现 函数 的 调用 。PowerPC 处 理 右 使 
用 GPR1 寄存 需 将 整个 堆栈 段 构 成 一 个 单 向 链表 ,在 这 个 单 向 链表 中 的 每 一 个 数据 成 员 被 称 
为 堆栈 栈 帧 (Stack Frame) ,其 中 每 一 个 函数 将 对 自己 的 栈 帧 进行 维护 。PowerPC 体系 中 的 堆 
栈 的 增长 方向 是 从 高 地 址 到 低地 址 ,而 堆 的 增长 方向 也 是 从 低地 址 到 高 地 址 。 当 栈 段 和 堆 相 
遇 时 就 会 产生 溢出 。PowerPC 体系 的 堆栈 结构 如 图 2-5 所 示 。 


Previoys Back Chain 
32-bit General Register Save Area 





High Address 


图 2-$ ”PowerPC 堆栈 栈 帧 结构 


在 图 2-5 中 ,PowerPC 体系 的 每 一 个 栈 帧 是 由 一 个 个 数据 成 员 组 成 的 ,其 中 有 些 数据 成 员 
间 需 要 8 字 节 对 界 。 图 2-5 中 各 个 数据 成 员 的 描述 如 下 所 示 。 

e Back Chain。 当 前 的 栈 顶 指针 寄存 器 SP( 即 寄存 器 GPR1) 保 存 上 一 个 栈 帧 的 Back 
Chain 的 地 址 。 当 函数 返回 时 ,SP 将 指 回 上 一 个 栈 帧 。 

e LR Save Word。 该 数据 成 员 用 来 存放 使 用 bl 指令 进入 相应 函数 后 ,LR 寄存 器 的 值 。 
当 函 数 返 回 时 ,将 从 该 数据 成 员 中 获取 LR 寄存 器 的 值 ,然后 再 使 用 blr 指令 进行 函数 
返回 。 

e@ Parameter Save Area。 该 数据 成 员 用 来 存放 函数 的 参数 ,E500 ABI 规定 进行 函数 调用 
时 ,首先 使 用 通用 寄存 器 GPRR3 一 GPR10 保存 函数 参数 ,如 果 函 数 的 参数 多 于 8 个 , 剩 
余 的 部 分 参数 将 使 用 Parameter Save area 保存 。 

e Local Variable Space。 该 数据 成 员 用 于 存放 函数 的 临时 变量 ,E500 ABI 首先 使 用 通用 
寄存 器 GPR14 一 GPR31 存放 函数 的 临时 变量 ,如 果 一 个 函数 使 用 的 临时 变量 过 多 , 则 
需要 使 用 该 数据 成 员 存放 临时 变量 。 该 数据 成 员 与 64-bit General Register Save Area 
间 需 要 8 字 节 对 界 ,因此 有 时 需要 填充 位 。 

® 04-bit General Register Save Area。 该 数据 成 员 用 于 保存 函数 所 使 用 的 64 位 的 寄存 器 。 

e CR Save Area。 该 数据 成 员 用 于 保存 CR 寄存 器 ,如 果 函 数 没有 使 用 64 位 的 寄存 器 , 那 
么 CR Save Area 和 64-bit General Register Save Area 之 间 的 padding 将 被 忽略 。 





SP(GPRT JILow Address 
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e@ 32-bit General Register Save Area 用 于 保存 函数 所 使 用 的 32 位 寄存 项 。 在 一 般 情 况 下 ， 
E500 内 核 使 用 该 数据 成 员 保存 处 理 器 中 的 32 位 通用 寄存 器 。 但 是 如 果 在 函数 中 使 用 
通用 寄存 器 中 的 高 32 位 进行 运算 ,如 进行 与 SPE 相关 的 运算 , 则 需要 使 用 数据 成 员 
64-bit General Register Save Area 来 保存 这 些 寄 存 器 。 
如 果 程 序 员 完 全 使 用 C 语言 进行 程序 设计 ,将 不 用 考虑 PowerPC 体系 的 栈 帧 结构 。 因 为 
此 时 整个 栈 帧 结构 将 由 C 编译 器 维护 。 但 是 如 果 程 序 员 需 要 在 汇编 程序 中 进行 C 语言 函数 
调用 或 者 在 C 程序 中 进行 汇编 语言 函数 调用 时 , 则 应 注意 栈 帧 的 维护 。 
程序 员 在 实现 一 个 复杂 的 C 程序 调用 汇编 函数 时 ,维护 栈 帧 并 不 容易 , 稍 不 留神 就 会 出 
错 。 这 里 提供 一 个 相对 较为 简单 的 办 法 ,首先 使 用 C 语言 建立 一 个 基本 的 函数 ,将 所 有 的 晒 
数 参 数 和 即将 在 函数 中 使 用 的 临时 变量 添加 到 这 个 函数 中 ,然后 使 用 C 编译 器 生成 汇编 代 
码 ,此 时 生成 的 汇编 代码 将 自动 维护 好 E500 内 核 的 栈 帧 结构 。 
Linux PowerPC 中 的 一 些 汇编 程序 也 是 使 用 这 种 方法 生成 的 。 这 里 需要 提醒 读者 注意 ， 
使 用 这 种 方法 时 ,不 要 打开 C 编译 器 的 优化 选项 ,因为 C 编译 器 会 删除 这 些 暂 时 没有 使 用 的 
临时 变量 。 
多 数 在 C 程序 中 进行 的 汇编 语言 函数 调用 较为 
容易 ,例如 在 汇编 语言 中 函数 的 参数 少 于 8 个 ,使 用 
的 临时 变量 用 通用 寄存 器 GPR14 一 GPRR31 就 足够 
存放 ,同时 在 这 个 汇编 函数 中 不 需要 调用 其 他 函数 
时 ,其 栈 帧 结构 就 十 分 简单 ,如 图 2-6 所 示 。 
在 这 种 情况 下 堆栈 中 仅 需 要 保存 Back Chain( 用 图 2-6 简单 的 PowerPC 堆栈 栈 帧 结构 
来 维护 SP 指针 ) 和 LR Save Word( 用 来 进行 函数 返 
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SP(GPR1) 


回 )。 对 于 此 类 栈 帧 结构 , 念 怕 是 刚刚 入 门 的 程序 员 也 可 以 轻易 掌握 ,并 用 来 实现 C 程序 调用 
汇编 语言 的 函数 调用 。 

这 种 栈 帧 结构 也 是 E500 内 核 可 能 的 最 小 栈 帧 大 小 , 共 16 个 字 节 。Linux PowerPC 使 用 
宏 STACK “FRAME OVERHEAD 定义 最 小 的 堆栈 栈 帧 的 大 小 。 这 个 宏 的 定义 在 
. /include/asm-powerpc/ptrace.h 文件 中 。 








本 节 内 容 对 于 程序 员 深 入 理解 PowerPC 体系 结构 十 分 重要 ,指令 
有 关 的 ABI 是 处 理 器 体系 结构 的 精华 所 在 。 由 于 篇 幅 所 限 , 本 书 不 能 详 述 。 


2.5 ”PowerPC 处 理 器 的 指令 执行 


PowerPC 处 理 器 采用 多 发 射 (Superscaler) 和 乱 序 执行 (Out-of-Order) 技 术 实 现 指 令 的 流水 
执行 。 所 谓 指令 的 流水 执行 是 指 将 一 条 指令 的 执行 全 过 程 分 解 为 若干 个 子 任务 ,然后 建立 相 
关 的 流水 线 , 将 一 个 指令 分 为 在 干 段 分 别 执行 。 

处 理 器 采用 指令 流水 线 的 原因 主要 有 两 条 ,一 是 因为 在 现代 处 理 器 中 在 一 个 机 器 时 钟 周 
期 之 内 无 法 完成 从 取 值 到 指令 完成 的 全 过 程 ,因此 必须 将 指令 执行 分 解 为 看 于 段 ; 二 是 为 了 充 
分 利用 流水 线 各 个 功能 部 件 。 

3 了 1 


指令 的 流水 执行 是 处 理 器 内 核 中 的 重要 组 成 部 件 。 基 于 不 同 内 核 的 PowerPC 处 理 器 , 采 
用 的 指令 流水 并 不 相同 。 如 基于 604E 的 处 理 器 ,其 流水 线 长 度 为 6; 而 基于 E500 内 核 的 处 理 
全 ,其 流水 线 长 度 为 7。 有 些 处 理 器 ,如 基于 Prescott 内 核 的 奔腾 ,其 流水 线 长 度 为 31 ,采用 这 
种 超 长 的 流水 线 长 度 的 主要 优点 是 可 以 将 一 条 指令 的 执行 分 解 为 更 多 的 步骤 ,这 样 可 以 进 一 
步 细 化 指令 的 执行 单元 ,从 而 可 以 使 处 理 器 运行 在 更 高 的 主 频 上 。 
但 是 ,有 时 这 种 主 频 的 提高 并 不 能 提高 处 理 器 指令 的 执行 效率 。 如 果 一 个 处 理 器 使 用 时 
间 过 长 ,那么 在 程序 分 支 预测 失败 后 ,指令 流水 线 的 排 空 时 间 也 随 之 加 长 ,从 而 极 大 地 影响 了 
流水 线 的 建立 时 间 。 因 此 虽然 加 大 流水 线 的 深度 可 以 有 效 地 提高 处 理 器 的 主 频 ,但 是 片面 地 
提高 流水 线 的 深度 并 不 能 有 效 地 提高 处 理 器 运算 性 能 。 
E500 内 核 使 用 的 指令 流水 线 深度 为 7 级 ,如 图 
2-7 所 示 。 
e@ 指令 预 取 (Instruction Fetch)。E500 内 核 使 用 
两 级 流水 线 实现 指令 的 预 取 ,首先 从 L1 指令 
Cache 中 获得 需要 执行 的 指令 ;如 果 所 取 的 指 
令 在 L1 Cache 没有 命中 ,E500 内 核 将 依次 访 
问 L2 Cache 和 外 部 存储 器 。 
@ 指令 译 码 (Instruction Decode/Dispatch)。 指 
令 译 码 模块 将 根据 指令 的 OPCD 码 , 将 指令 


和 与 此 指令 有 关 的 操作 数 进行 分 解 ,分 别 放 
入 指令 主 码 模块 的 缓存 中 。 


e@ 指令 发 射 (Instruction Issue)。 指 令 发 射 模块 


根据 指令 执行 模块 的 使 用 情况 ,决定 是 否 将 指 图 2 7 E500 内 核 的 指令 流水 线 
令 发 射 到 指令 执行 模块 中 执行 。 

e 指令 执行 (Instruction Execution)。 指 令 执行 模块 将 执行 指令 。E500 内 核 中 一 共有 
BU,LASU,SU1,SU2 和 MU 共 5 个 执行 单元 。 其 中 BU(Branch Unit) 用 来 执行 转移 指 
令 和 对 CR 寄存 器 操作 的 指令 ,L/SU (Load/Store Unit) 用 来 执行 存储 器 访问 指令 ， 
SU1/SU2 用 来 执行 简单 的 算术 逻辑 运算 , 而 MU( Multiple-cycle Instruction Unit) 用 来 
执行 一 些 需 要 多 个 机 器 周期 的 指令 。 

e 指令 完成 (Instruction Completion ) 。 该 模块 将 完成 指令 的 执行 ,将 执行 结果 保存 到 相应 
的 寄存 器 中 ,同时 释放 相应 指令 所 占用 的 流水 线 资源 。 

e@ 指令 回 写 (Instruction Write-Back)。 同 步 Rename Register( 重 命名 寄存 器 ) 与 系统 通用 
寄存 器 ,有 些 指令 的 执行 不 经 过 此 流水 部 件 。 

下 文 将 指令 从 预 取 到 结束 的 全 过 程 称 为 指令 运行 ， 而 将 指令 在 指令 执行 部 件 中 运行 称 为 
指令 执行 。E500 内 核 在 指令 运行 的 各 个 环节 之 间 设 置 了 许多 缓冲 ,并 在 指令 发 射 部 件 中 使 用 
重 命名 寄存 器 实现 程序 的 乱 序 执行 。ES00 内 核 采用 7 级 流水 结构 运行 指令 ,在 一 个 机 器 周期 
内 可 以 发 射 两 条 指令 ,并 可 以 完成 两 条 指令 的 运行 。 

E500 内 核 的 乱 序 执行 是 指 在 指令 的 执行 阶段 ,由 于 不 同 指令 的 执行 速度 不 同 或 者 由 于 其 
他 原因 ,后 执行 的 指令 可 以 提早 执行 完毕 。 为 此 在 E500 内 核 中 设立 了 一 些 重 命名 寄存 器 
(Renaming Register) 用 来 实现 这 一 技术 。 但 是 在 E500 内 核 中 ,指令 在 发 射 阶段 和 完成 阶段 必 

32 





Fetch Stage 1 
Fetch Stage 2 


Decode/Dispatch Stage 














须 顺 序 进行 。 
2.5.1 指令 预 取 


E500 内 核 使 用 两 个 阶段 实现 指令 的 预 取 。 在 指令 预 取 的 第 一 阶段 ,E500 内 核 首先 从 L1 
Cache 中 获取 这 些 指 令 。 如 果 LI Cacke 没有 命中 ,E500 内 核 将 通过 ILFB( Instruction Line Fill 
Buffer) 从 系统 总 线 上 的 L2 Cache 或 者 主 存储 器 中 获取 指令 ,ILFB 一 次 可 以 存放 8 条 指令 。 
对 禁止 Cache 的 空间 进行 指令 预 取 时 必须 使 用 ILFB 进行 缓冲 。 

通过 各 种 方式 预 取 的 指令 将 被 E500 内 核 存 放 到 指令 队列 IQ(Instruction Queue) 中 ,该 指 
令 队列 的 长 度 为 12。 指 令 预 取 的 第 一 阶段 如 图 2-8 所 示 。 图 中 虚线 表示 控制 总 线 通路 而 实 线 
表示 数据 总 线 通路 。 现 代 处 理 器 系统 中 将 控制 通路 与 数据 通路 分 离 , 这 也 是 处 理 器 内 核 中 常 
用 的 方法 。 


Instruction Fetch 


MMU -TTITTIT 









IQ[O:11] 





ILFB 


系统 总 线 
外 部 
存储 器 


图 2-8 E500 内核 的 指令 预 取 的 第 一 阶段 


在 E500 内 核 中 ,只 要 IQ 队列 不 为 空 ,指令 预 取 单元 就 会 在 每 个 机 器 周期 内 将 指令 源源 
不 断 地 送 往 IQ 队列 。 

指令 预 取 的 第 二 阶段 首先 处 理 在 IQ 队列 头 部 的 两 条 指令 , 即 存放 在 IQ0 和 IQI 中 的 指 
令 。 具 体 地 说 ,指令 预 取 的 第 二 阶段 将 根据 指令 编码 OPCD 的 不 同 将 指令 分 为 两 类 , 跳 转 指 
令 和 通用 指令 。 指 令 的 译 码 与 发 射 单元 会 将 这 些 指令 分 别 加 入 到 转移 发 射 队列 BIQ(Branch 
Issue Queue) 或 者 两 条 通用 发 射 队列 GIQ(General Issue Queue) 中 ， 然后 再 进入 相应 的 指令 执 
行 单元 。 在 指令 预 取 的 第 二 阶段 所 做 的 指令 编码 的 预 处 理 将 减轻 指令 译 码 单元 的 负担 。 

PowerPC 体系 结构 的 指令 长 度 为 32 位 。E500 内 核 在 每 个 机 器 时 钟 内 最 多 可 以 预 取 4 条 
指令 ,而 且 这 4 条 指令 不 能 跨越 指令 Cache 行 边界 。 

由 上 文 可 知 ,E500 内 核 指令 的 预 取 使 用 两 个 机 器 时 钟 , 第 一 个 机 器 时 钟 用 作 预 取 指 令 , 第 
二 个 机 和 需 时 钟 用 来 分 析 指 令 ,然后 将 不 同 指令 加 入 到 相应 的 指令 队列 中 。 此 外 ,在 第 二 个 机 器 
周期 中 还 需要 对 转移 指令 进行 处 理 。E500 内 核 不 支持 转移 指令 的 静态 分 支 预 测 ,而 是 在 指令 
预 取 的 第 二 阶段 开始 考虑 如 何 处 理 程序 的 分 支 预测 。E500 内 核 程 序 预测 的 处 理 较为 复杂 。 
下 文 将 详细 介绍 程序 的 分 支 预测 。 

指令 预 取 是 指令 运行 过 程 中 相对 较为 简单 的 部 件 。 如 果 忽 略 程序 分 支 预测 带 来 的 时 间 损 
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失 ,指令 的 预 取 部 件 的 执行 效率 非常 高 。 不 过 在 以 下 几 种 特殊 情况 下 ,指令 预 取 效 率 将 会 受到 
较 大 的 影响 。 
e@ 对 Ll1 Cache,L2 Cache 及 BTB(Branch Target Buffer) 进 行 管理 的 指令 在 执行 时 将 阻塞 


e@ 指令 MMU 和 指令 LI1 Cache 不 命中 时 将 会 阻塞 指令 的 预 取 ,直到 ILFB 从 L2 Cache 或 
者 外 部 存储 器 中 获得 指令 。 


e 在 指令 预 取 的 第 二 阶段 ,如 果 进 行 指令 转移 时 ,E500 内 核 将 把 在 第 一 阶段 预 取 的 指令 
丢弃 ,此 时 E500 内 核 将 重新 进行 指令 预 取 。 
IQ 队列 满 时 ,将 停止 指令 的 预 取 。 


2.5.2 指令 译 码 与 发 射 单元 


E500 内 核 的 指令 译 码 单元 在 一 个 机 器 时 钟 内 可 以 处 理 两 条 指令 的 译 码 ,然后 将 这 两 条 指 
令 放 入 到 指令 队列 BIQ 或 者 GIQ 中 。 指 令 译 码 与 发 射 单元 的 结构 如 图 2-9 所 示 。 
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图 2-9 ES00 内核 的 指令 译 码 与 发 射 单 元 结构 图 


指令 译 码 单元 将 对 IQ 中 的 指令 顺序 进行 译 码 , 并 将 这 些 指 令 派 遗 到 相应 的 指令 发 射 部 
件 中 。 一 些 特殊 的 指令 如 "isync”,“rfi” 和 “nop" 指 令 将 由 指令 译 码 单元 直接 传递 到 指令 执行 
元 而 忽略 指令 发 射 单元 。 

e 指令 译 人 码 单元 将 对 IQ0 和 IQI1 中 的 指令 进行 译 码 , 如 果 CQ(Completion Queue) 队 列 不 

为 空 , 则 将 IQ0 和 IQ1 中 的 指令 派遣 到 BIQ 或 者 GIQ 队列 中 ,同时 改变 CQ 队列 的 队 
首 和 队 尾 指针 。 
e BIQ 的 队列 深度 为 2,GIQ 的 队列 深度 为 4。 在 一 个 机 器 周期 内 ,BIQ 队列 一 次 可 以 接 
受 一 条 分 文 转移 指令 而 GIQ 一 次 可 以 接受 两 条 非 分 支 转移 类 指令 。 这 些 指令 只 能 来 
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目 IQ 队列 头 部 的 两 条 指令 ,IQ0 和 IQ1。 
当 IQ0 和 IQ1 中 存放 的 指令 为 无 条 件 转移 指令 时 ,指令 译 码 部 件 将 阻止 下 一 条 指令 的 译 
码 直 到 此 无 条 件 转 移 指 令 执 行 后 。 为 提高 效率 ,E500 内 核 不 需要 将 无 条 件 转移 指令 完全 执行 
完毕 , 才 进 行 下 一 条 指令 的 译 码 。E500 内 核 在 确定 无 条 件 转移 指令 的 执行 地 址 后 ,将 立即 重 
新 进行 指令 预 取 ,之 后 重新 对 新 的 指令 进行 译 码 。 
E500 内 核 为 支持 指令 的 乱 序 执行 ,在 指令 译 码 阶段 ,将 从 E500 内 核 中 获得 一 些 相关 的 
Rename Registers, 以 便 在 指令 执行 单元 中 使 用 。 
正常 情况 下 ,指令 译 码 单元 可 以 在 每 个 机 器 时 钟 节拍 中 对 两 条 指令 进行 译 码 。 但 在 以 下 
几 种 特殊 情况 下 ,指令 译 码 单元 将 会 被 阻塞 。 
e@ 有 些 指令 需要 进行 指令 同步 。 此 时 IQ 队列 中 的 指令 需要 等 待 指令 同步 结束 后 才能 被 
译 码 。 

e@ 有 了 时 当前 指令 的 执行 需要 等 待 指 令 流水 线 的 排 空 。 

e@ 当 动 态 指令 预测 失败 时 。 此 时 的 处 理 比 较 复 杂 。 指 令 译 码 在 此 时 将 会 被 阻塞 , 直到 处 
理 完 因为 预测 失败 而 带 来 的 一 系列 问题 。 

e@ 当 指 令 完 成 队列 CQ 中 没有 空间 时 ,指令 发 射 单 元 单元 将 被 阻塞 ,下 文 将 在 指令 完成 单 
元 中 详细 介绍 CQ 的 使 用 。 

e 在 IQ 队列 中 没有 指令 时 。 此 时 显然 不 能 进行 指令 译 码 ,发 生 这 种 情况 的 主要 原因 是 预 
取 的 指令 没有 在 指令 的 LI1 Cache 中 命中 。 

e 当 BIQ 和 GIQ 满 时 ,而 且 执 行 单元 忙 时 。 此 时 不 能 进行 指令 译 码 。 

e@ 其 他 因为 资源 相关 所 带 来 的 阻塞 。 - 

指令 译 码 结束 后 ,1Q0 或 者 IQ1 中 的 指令 将 被 分 别 放 入 BIQ 或 GIQ 队列 中 等 待 执 行 。 
E500 内 核 支 持 多 发 射 技术 ,在 一 个 机 器 时 钟 节拍 中 ,可 以 同时 发 射 多 条 指令 ,其 中 所 有 的 分 支 
转移 指令 将 由 BIQ0 传递 给 指令 执行 单元 , 非 分 支 转移 指令 将 由 GIQ0 和 GIQI 传递 给 指令 执 
行 单元 。 

指令 发 射 单元 支持 乱 序 处 理 。 当 GIQ0 中 的 指令 由 于 资源 问题 没有 被 发 射 ,而 GIQI 中 
的 指令 被 发 射 时 ,GIQ2 中 的 指令 可 以 下 移 到 GIQ1L 中 继续 发 射 。 指 令 发 射 单元 还 会 将 一 些 组 
合 指令 如 stwu,lmw 等 指令 分 解 成 为 简单 的 单 操 作 指令 ,然后 再 将 这 些 指令 分 别 发 射 到 对 应 
的 执行 单元 中 ,如 stwu 指令 将 被 分 解 为 stw 和 addi 两 条 指令 ,然后 分 别 被 发 射 到 L/SU 和 
SU1(SU2) 中 。 

由 此 可 见 ,stwu 指令 虽然 可 以 同时 实现 访问 存储 器 和 将 地 址 更 新 两 种 操作 ,可 是 在 指令 
运行 时 还 是 要 分 为 两 个 步 又 进行 ,但 是 此 指令 的 运行 还 是 比分 解 为 stw 和 addi 两 条 指令 执行 
的 效率 高 ,因为 stwu 指令 在 指令 预 取 和 译 码 部 件 中 仅 执 行 一 次 ,采用 这 种 指令 可 以 减 小 可 执 
行程 序 代 码 的 大 小 ,同时 提高 指令 发 射 的 效率 。 

正常 情况 下 ,指令 发 射 单元 可 以 在 每 个 机 器 时 钟 节 拍 中 发 射 一 条 指令 到 BU 单元 ,两 条 指 
令 到 其 他 指令 执行 单元 中 。 但 在 以 下 几 种 特殊 情况 下 ,指令 发 射 单元 将 会 被 阻塞 。 

e 在 BIQ 或 者 GIQ 队列 中 没有 指令 。 

e@ 指令 发 射 单元 需要 等 待 运行 资源 ,如 指令 执行 单元 运算 资源 没有 被 释放 ,或 者 由 于 指令 

的 相关 性 ,指令 发 射 单元 需要 等 待 前 一 条 指令 执行 完毕 之 后 ,才能 够 将 在 GIQ 队列 中 
的 指令 发 射 到 指令 执行 部 件 中 。 
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2.5.3 ”指令 执行 单元 

E500 内 核 支 持 乱 序 执行 并 支持 多 发 射 。 为 此 E500 内 核 采 用 了 寄存 器 重 命名 技术 并 设置 
了 多 个 指令 处 理 单元 。 

在 指令 发 射 单 元 和 指令 执行 单元 之 间 有 一 些 预约 站 (Reservation Station) ,在 指令 从 BIQ 
或 GIQ 中 进入 执行 单元 之 前 ,这 些 指令 需要 对 预约 站 的 状态 进行 检查 。 如 果 预 约 站 忙 ,在 指 
令 发 射 单元 将 被 阻塞 ,如 果 不 忙 ,这 些 指令 将 进一步 做 相关 性 检查 ,如果 没有 相关 性 发 生 ,这 些 
指令 将 同时 进入 预约 站 和 指令 执行 单元 。 

E500 内 核 采 用 分 支 处 理 单元 BU(Branch Unit) 对 转移 指令 进行 动态 预测 ,使 用 了 SU1 
(Simple Unit) ,SU2 ,一 个 LSU(Load/Store Unit) 和 一 个 MU(Multiple-cycle Instruction Unit) 
用 于 指令 的 执行 。 因 此 E500 内 核 最 多 一 次 可 以 执行 5 条 指令 。 指 令 执行 单元 是 指令 运行 的 
7 个 阶段 中 最 为 复杂 的 单元 ,其 结构 如 图 2-10 所 示 。 
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图 2-10 ”E500 内 核 的 指令 执行 单元 结构 图 
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指令 执行 单元 通过 预约 站 与 BIQ 和 GIQ 进行 相 联 ,指令 在 执行 过 程 中 将 会 从 相应 的 通用 
寄存 器 ,或 重 命名 寄存 器 中 获取 操作 数 , 然 后 执行 。 其 中 BIQ0 可 以 与 BU 进行 数据 传输 ， 
GIQ0 可 以 与 SU1,LSU 与 MU 进行 数据 传输 ,GIQI1 可 以 与 SU2,LSU 与 MU 进行 数据 传输 。 

1. SU 与 MU 处 理 单元 

E500 内 核 具 有 两 个 SU 处 理 单元 ,SUL 和 SU2。 其 中 SU1 可 以 执行 有 关 32 位 ,64 位 的 
” 定 扣 或 者 浮 点 的 算术 及 人 逻辑 运算 ,SU1 中 还 可 以 执行 SPE 中 的 指令 。 而 在 SU2 中 只 能 执行 
一 部 分 SU1 中 的 指令 ,64 位 的 SPE 运算 不 能 在 SU2 中 执行 。 

在 SU 处 理 单元 中 执行 的 大 部 分 指令 只 需要 一 个 机 器 周期 ,但 是 有 些 访问 某 些 spr 寄存 器 
的 指令 可 能 会 需要 多 个 机 器 周期 。 

MU 处 理 单元 用 来 执行 乘除 运算 ,在 MU 中 执行 的 乘法 操作 一 般 需 要 4 个 机 器 时 钟 节 
拍 。 而 除法 将 根据 运算 的 复杂 性 可 以 在 4 个 11 个 .19 个 或 35 个 机 器 时 钟 内 结束 。SU 与 
MU 是 处 理 单 元 中 较为 简单 的 模块 。 

2. LSU 处 理 单元 

LSU 处 理 单元 用 来 执行 存储 器 访问 指令 及 管理 Cache 和 TLB 的 一 些 指 令 。 与 其 他 指令 
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处 理 单元 相 比 ,LSU 较为 复杂 。 在 LSU 处 理 单元 中 执行 的 指令 首先 需要 通过 E500 内 核 的 
MMU 计算 被 访问 数据 的 物理 地 址 ,之 后 使 用 E500 内 核 的 内 存 系统 ,依次 经 过 LI1,L2 Cache 
和 外 部 存储 器 ,对 数据 进行 访问 。 

LSU 还 需要 处 理 存 储 器 访问 的 同步 与 相关 。 如 果 在 存储 指令 执行 时 ,没有 出 现存 储 访问 
异 弟 ,如 Cache 不 命中 存储 相关 存储 同步 等 问题 ,在 LSU 中 执行 指令 的 需要 3 个 机 器 时 钟 
忆 担 ,为 此 在 LSU 共 分 三 级 流水 处 理 在 此 运行 的 指令 。 

E500 内 核 的 LSU 中 采用 了 L1 Store Queue, LMQ(L1 Load Miss Queue), DLFB (Data 
Line Fill Buffer) 和 DWB(Data Write Buffer) 等 数据 缓冲 ,来 缓解 主 存储 器 的 瓶颈 问题 ,LSU 的 
结构 如 图 2-11 所 示 。 


L1 Store Queue 





图 2-11 E500 内 核 LSU 处 理 单元 


(1) L1 Store Queue。 执 行人 存储 占 写 指令 时 ,LSU 首先 将 存储 器 写 指 令 放 人 Store Queue 
队列 中 ,同时 对 存储 器 进行 写 操 作 。 当 存储 器 写 指令 执行 完毕 后 ,Store Queue 中 的 对 应 存储 
器 写 指令 将 被 移出 。E500 内 核 的 Store Queue 深度 为 7, 最 多 可 以 支持 7 条 存储 器 写 指 令 。 当 
Store Queue 满 时 ,存储 器 写 指令 将 被 阻塞 。 

(2) DLFB。DLFB 用 来 缓存 L1 Cache 的 数据 ,DLFB 可 以 理解 为 Ll Cache 到 系统 总 线 上 
存储 部 件 的 缓冲 。 进 行 存储 器 读 写 操作 时 ,如 果 L1 Cache Miss, 处 理 器 将 通过 DLFB 从 系统 
总 线 中 获取 数据 。E500 V1 内 核 中 的 DLFB 的 宽度 为 256 位 ,深度 为 3。 

(3) LMQ。 执 行 存 储 器 读 指令 时 ,LSU 首先 访问 LI1 Cache, 如 果 数 据 在 Ll1 Cache 中 命 
中 , 则 获得 此 数据 ;反之 ,LSU 将 为 这 条 存储 器 读 指令 分 别 在 LMQ 和 DLFB 中 各 分 配 一 个 
Entry。 其 中 LMQ 的 Entry 中 存放 读 指令 ,DLFB 用 来 存放 即将 读 取 的 数据 。 

LMQ 和 DLFB 准备 好 后 ,LSU 发 起 总 线 请 求 从 系统 总 线 中 获取 数据 。 当 存储 器 读 指令 
执行 完毕 后 ,LMQ 中 的 Entry 将 被 移出 。 在 E500 V1 内 核 中 ,LMGQ 中 用 来 存放 存储 器 读 指 
令 ,深度 为 4。 
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(4) DWB。DWB 用 来 暂 存 失效 的 Cache Line。 当 L1 Cache 需要 替换 更 新 时 ,DWB 用 来 
存放 失效 的 Cache Line 并 选择 在 合适 的 时 机 将 Ll1 Cache 与 存储 事 系 统 进行 同步 。E500 V1 
内 核 的 DWB 宽度 为 256 位 ,深度 为 3。 

3. BU 与 BPU 处 理 单元 

BU 单元 与 BPU(Branch Prediction Unit) 不 同 ,BU 用 来 处 理 转 移 指令 和 对 CR 寄存 器 操 
作 的 指令 ,而 BPU 用 来 判断 转移 指令 是 否 发 生 转 变 。 

BPU 虽然 与 指令 执行 单元 有 千 丝 万 缕 的 关系 ,但 是 它 不 完全 属于 指令 执行 单元 ,BPU 在 
指令 的 译 码 阶段 就 开始 对 分 文 转移 是 否 发 生 转移 进行 预测 。 

E500 内 核 中 的 BU 处 理 单元 使 用 两 级 流水 线 对 分 支 转移 指令 进行 处 理 。 分 文 转移 指令 
将 分 为 分 支 转移 指令 执行 BE(Branch Execution) 和 分 支 转移 指令 执行 完成 BF(Branch Finish ) 
两 个 处 理 阶段 。 其 中 ,每 个 阶段 占用 一 个 机 器 周期 。E500 内 核 采用 专用 通道 技术 处 理 BU 处 
理 单元 的 两 级 流水 线 。 例 如 crand 指令 在 BF 中 执行 时 ,可 以 通过 专用 通道 将 CR 寄存 器 中 的 
变化 转 给 BE 中 与 CR 寄存 器 相关 的 指令 ,从 而 提高 流水 线 的 效率 。 

如 果 转 移 预 测 成 功 ,BU 处 理 单元 运行 十 分 顺利 ,不 会 对 指令 流水 线 造 成 任何 破坏 ;如 果 
转移 预测 失败 ,BU 处 理 单元 将 重新 把 指令 预 取 到 IQ 队列 后 ,重新 启动 指令 流水 线 , 这 种 情况 
将 极 大 地 影响 指令 流水 线 的 执行 效率 。 

E500 内 核 不 支持 静态 分 支 预测 , 而 是 采用 BPU 实现 动态 分 支 预测 。 在 E500 内 核 内 ， 
BPU 中 的 BTB(Branch Target Buffer) 共 含有 512 个 Entry, 这 $12 个 Entry 使 用 4 路 组 相 联 结 
构 进 行 管理 。BTB 的 Entry 中 共有 4 个 状态 : 

@ Strongly not taken( 不 进行 转移 处 理 ,00)。 

@ Weakly not taken( 建 议 不 进行 转移 处 理 ,01)。 

@ Weakly taken( 建 议 进 行 转移 处 理 ,10)。 

@ Strongly taken( 建 议 进行 转移 处 理 ,11)。 

在 E500 内 核 复位 后 ,BTB 中 所 有 的 Entry 状态 为 Invalid, 即 当前 Entry 无 效 。 当 一 条 转 
移 指 令 首次 进入 指令 队列 中 ,指令 译 码 单元 不 会 为 此 指令 分 配 BTB 中 的 Entry, 此 时 分 文 转移 
指令 采用 缺 省 的 Strongly not taken 的 状态 进行 。 

如 果 该 指令 没有 进行 转移 ,那么 BPU 将 不 会 为 该 指令 在 BIB 中 分 配 一 个 Entry; 如 果 该 
指令 进行 转移 ,BPU 将 在 BTB 中 分 配 一 个 Entry 用 来 记录 本 条 转移 指令 ,此 时 该 Entry 被 设 
置 为 有 效 , 其 状态 为 Srongly taken(11); 当 该 转移 指令 第 二 次 执行 时 没有 转移 时 ,将 Entry 中 
状态 的 值 减 1, 即 为 Weakly taken(10); 再 次 没有 转移 时 ,将 状态 的 值 继 续 减 1, 即 为 Weakly not 
taken(01) ;如果 该 转移 指令 发 生 转 移 时 ,将 Entry 中 状态 加 1, 并 以 此 类 推 。 

E500 内 核 中 可 以 禁止 这 种 动态 分 支 预测 功能 ,E500 内 核 提 供 了 BBEAR 和 BBTAR 两 个 
寄存 器 和 bblels 和 bbelr 两 条 指令 用 来 锁定 或 者 解除 锁定 对 某 一 条 指令 的 分 文 预测 功能 。 指 
令 译 码 单元 将 参考 BPU 中 转移 指令 的 状态 ,决定 如 何 调整 指令 流水 ,如 何 进行 指令 预 取 等 。 

4. 指令 完成 单元 与 指令 回 写 单元 

指令 完成 单元 使 用 了 指令 完成 队列 CQ(Completion Queue) 用 来 结束 指令 的 运行 。 在 
E500 内 核 中 ,CQ 的 深度 为 14, 这 也 意味 着 在 E500 内 核 中 ,指定 的 一 个 机 器 周期 内 ,最 多 有 14 
条 指令 在 同时 运行 。E500 内 核 规 定 CQ 中 的 指令 根据 指令 译 码 的 顺序 依次 完 

E500 内 核 在 一 个 机 器 周期 ,最 多 可 以 有 两 条 指令 执行 完毕 。 这 两 条 指令 存放 在 CQ0 和 
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CQ1 中 。 在 E500 内 核 中 ,有 些 指令 只 能 在 CQ0 中 完成 。 如 果 CQ0 中 的 指令 因为 各 种 情况 不 
能 完成 时 ,CQI 中 的 指令 也 不 能 完成 。E500 内 核 的 这 种 处 理 方法 保证 了 指令 还 是 按照 指令 译 
码 的 顺序 完成 的 。 

在 E500 内 核 中 ,CQ 队列 中 的 Entry 由 指令 译 码 单元 进行 初始 化 ,在 指令 译 码 阶段 ,将 从 
CQ 队列 中 一 次 取出 两 个 未 用 的 Entry, 并 将 此 Entry 的 状态 置 为 未 完成 ,然后 通过 指令 发 射 单 
元 送 入 指令 执行 单元 ,进行 指令 执行 ,在 执行 完毕 后 将 CQ 队列 中 相应 Entry 的 状态 置 为 已 完 
成 。 最 后 在 指令 完成 单元 中 将 CQ 队列 中 的 对 应 Entry 删除 ,从 而 完成 指令 的 运行 。 

值得 注意 的 是 本 节 出 现 的 IQ,CQ 队列 并 不 是 只 在 相应 的 执行 单元 中 使 用 。 对 于 IC 设计 
工程 师 而 言 ,IQ 和 CQ 队列 不 过 是 设计 指令 运行 全 过 程 中 使 用 的 一 些 缓冲 区 和 相应 的 控制 
位 ,在 IC 设计 中 IQ 和 CQ 队列 的 使 用 贯穿 指令 运行 的 各 个 单元 。 

在 指令 完成 单元 中 值得 注意 的 是 , 当 分 支 转移 指令 预测 失败 后 ,指令 完成 单元 将 负责 将 流 
水 线 清除 ,之 后 开始 对 指令 进行 预 取 。E500 内 核 在 指令 完成 单元 中 集中 处 理 各 种 同步 问题 。 
这 些 同 步 问题 包 括 各 种 指令 数据 同步 ,中 断 及 异常 事件 等 。 

指令 回 写 单元 较为 简单 ,在 每 个 机 器 时 钟 周 期 内 ,指令 回 写 单元 将 使 用 的 重 命名 寄存 器 写 
人 相应 的 GPR 寄存 器 和 CR 寄存 器 中 ,然后 释放 重 命名 寄存 器 的 空间 。 指 令 回 写 单元 的 执行 
将 不 会 被 阻塞 。 

从 E500 内 核 的 指令 运行 的 全 过 程 中 ,我 们 可 以 发 现 除了 在 指令 回 写 单元 外 ,指令 在 其 运 
行 的 各 个 环节 中 都 有 可 能 被 阻塞 。 如 何 充 分 利用 指令 流水 线 ,是 一 个 从 系统 到 应 用 各 个 方面 
都 需要 考虑 的 问题 。 


2.6 ”E500 内核 的 乱 序 执行 


E500 内 核 支 持 指 令 的 乱 序 执行 , 乱 序 执行 是 指 处 理 器 可 以 将 指令 不 按 程序 规定 的 顺序 发 
送 给 各 个 指令 执行 单元 。 当 指令 执行 完毕 后 ,E500 内 核 再 将 运算 结果 重新 按 程序 指定 的 指令 
顺序 排列 。 

采用 乱 序 执 行 技术 的 目的 是 处 理 器 不 需要 等 待 一 条 执行 速度 较 慢 的 指令 执行 完毕 ,就 可 
以 执行 下 一 条 指令 。 从 而 有 效 地 提高 了 处 理 器 各 个 运算 单元 的 使 用 效率 与 处 理 器 的 运算 
速度 。 

现代 处 理 需 大 都 采用 多 发 射流 水 线 技术 ,因此 在 指令 运行 阶段 会 遇 到 各 种 同步 事件 ,这 些 
同步 事件 有 时 也 会 降低 处 理 器 乱 序 执行 的 效率 。 由 于 多 发 射流 水 的 存在 ,指令 乱 序 执行 的 设 
计较 为 复杂 ,需要 与 指令 运行 中 许多 单元 进行 配合 ,因此 有 些 高 级 处 理 需 在 设计 中 并 没有 实现 
乱 序 执行 。 


2.6.1 指令 乱 序 执行 的 例子 


下 文 首先 假定 在 一 个 不 支持 乱 序 执行 的 处 理 器 A 中 执行 (R2*R4)+ R2 x (R2+R2) 这 
样 的 运算 ,其 中 寄存 器 R2 中 存放 无 符号 数 UIMM ,寄存 器 R4 中 使 用 寄存 器 R1 进行 间接 寻 
址 ,获得 相应 的 数据 。 其 汇编 程序 如 表 2-3 所 示 。 
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表 2-3 (R2x*R4)+ R2x (R2 二 R2) 的 汇编 程序 


假定 在 处 理 器 A 中 ,乘法 指令 执行 时 使 用 3 个 机 器 周期 ,而 存 取 存 储 器 数据 指令 执行 时 
使 用 4 个 机 器 周期 ,其 他 的 指令 执行 时 使 用 一 个 机 器 周期 。 为 简化 起 见 , 假 定 处 理 器 A 不 文 
持 多 发 射 ,但 是 支持 指令 流水 ,同时 拥有 多 个 指令 处 理 单元 。 

由 此 可 见 ,处 理 器 A 在 一 个 机 器 周期 内 最 多 只 能 发 射 一 条 指令 ,最 多 只 有 一 条 指令 可 以 
执行 完毕 。 在 这 种 情况 下 ,I1 一 I6 指令 的 执行 顺序 将 如 表 2-4 所 示 。 在 2-4 表 中 “Clock "是 指 
处 理 器 使 用 的 机 器 周期 ,假定 11 在 机 器 周期 1 处 开始 执行 顺序 执行 "一 栏 中 , 列 出 指令 在 哪 
个 机 器 周期 开始 执行 ,同时 指出 指令 流水 停滞 的 原因 ; 而 “执行 结束 "一 栏 中 , 列 出 哪个 指令 在 
该 机 器 周期 中 执行 完毕 。 


表 2-4 (R2*R4)+ R2x (R2+R2) 的 顺序 执行 过 程 
1 
np 
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e@ 指令 I1 和 了 2 可 以 立即 执行 ,但 是 由 于 处 理 器 A 只 支持 单 发 射 , 所 以 12 必须 在 机 器 周期 
2 中 开始 执行 。 

e@ 指令 I3 由 于 使 用 了 寄存 器 4 ,而 该 寄存 器 在 指令 Z 执行 完毕 后 才 被 释放 ,因此 指令 I3 
只 能 在 机 峰 周 期 7 中 开始 执行 ,因为 在 机 器 周期 6 中 指令 IZ 执行 完毕 ,指令 I4 没有 任 
何 相 关 性 问题 ,可 以 在 机 器 周期 8 中 开始 执行 。 

e@ 指令 15 使 用 了 寄存 器 R8 ,该 寄存 器 在 指令 I4 执行 完毕 后 才 被 释放 ;因此 该 指令 只 能 在 


机 器 周期 11 中 开始 执行 。 
e@ 指令 16 使 用 了 寄存 器 R4, 该 寄存 器 在 指令 I5 执行 完毕 后 才 被 释放 ， 因此 该 指令 只 能 在 
机 器 周期 15 中 开始 执行 。 z 


e@ 最 后 在 机 妖 周 期 16 中 ,结束 指令 16 的 执行 。 
通过 以 上 分 析 可 知 , 由 于 有 些 指 令 的 相关 性 不 可 避免 ,处 理 器 A 的 流水 线 并 没有 被 充分 利 
用 。 指 令 IL 一 I6 在 顺序 执行 计算 (R2 x R4) + R2 * (R2+R2) 时 一 共 需 16 个 机 器 周期 。 
通过 对 以 上 指令 进行 分 析 , 可 以 发 现 14 指令 所 需 的 操作 数 只 有 R2 ,而 且 R2 在 11 指令 执行 
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完毕 后 就 已 经 被 准备 好 ,从 而 执行 14 指令 不 会 和 其 他 指令 产生 相关 。 因 此 如 果 采 用 乱 序 执行 机 
制 ,14 将 可 以 被 提前 执行 。 但 是 采用 这 种 乱 序 执行 技术 就 一 定 能 够 提高 指令 执行 的 效率 吗 ? 

为 此 假定 处 理 器 B 继承 了 处 理 器 A 的 一 些 特性 ,但 是 支持 指令 的 乱 序 执行 。 在 这 种 情况 
下 ,TI 一 I6 指令 的 在 处 理 器 B 执行 的 顺序 将 如 表 2-5 所 示 。 


表 2-5 (R2xR4)+ R2x ee 
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可 以 发 现 ,虽然 处 理 器 BB 3 江上 了 乱 序 执行 机 制 , 但 是 流水 线 还 是 没有 被 充分 利用 。 使 用 
处 理 BB 计算 (R2 x R4) + R2 * (R2 +R2) 仍 然 需 要 16 个 机 器 周期 。 这 个 执行 结果 令 人 失 
望 ,因为 采用 指令 乱 序 执行 机 制 并 没有 改进 程序 的 运行 效率 。 程 序 的 相关 性 依旧 对 程序 的 乱 
序 执行 机 制 产生 影响 。 我 们 需要 进一步 分 析 :究竟 是 什么 样 的 相关 影响 了 指令 乱 序 执行 的 效 
率 ? 


2.6.2 指令 的 相关 性 


指令 运行 时 ,有 时 因为 未 执行 完毕 的 指令 占用 了 一 些 资源 ,从 而 造成 后 面 的 指令 无 法 立即 
运行 ,必须 等 待 前 面 的 指令 执行 完毕 ,这 种 情况 称 为 指令 的 相关 。 

在 程序 执行 过 程 中 存在 许多 种 相关 ,有 些 相 关 是 无 法 避免 的 ,而 有 些 相关 可 以 通过 某 种 机 
制 规避 。 程 序 执行 中 经 常 出 现 的 相关 主要 有 以 下 几 种 。 

(1) 控制 相关 。 此 类 相关 问题 由 程序 的 转移 指令 引起 。 转 移 指令 的 下 一 条 指令 要 等 待 转 
移 指令 的 结果 决定 是 否 执行 。 在 E500 内 核 中 使 用 BPU 和 BU 处 理 单元 处 理 所 有 的 转移 类 指 
令 并 对 控制 相关 进行 处 理 。 

(2) 资源 相关 。 此 类 相关 是 指 当前 指令 所 需 的 资源 缺乏 而 引起 的 相关 。 比 如 当前 指令 需 
要 使 用 MU 处 理 单元 ,但 是 MU 处 理 单元 正在 被 其 他 指令 所 使 用 ,此 时 当前 指令 必须 要 等 待 
其 他 指令 执行 完毕 ,释放 MU 处 理 单元 后 ,才能 被 执行 。 

(3) 数据 相关 。 数 据 相 关 是 指 在 程序 的 执行 过 程 中 ,下 一 条 指令 需要 等 竺 前 一 条 指令 的 
执行 结果 ,如 下 所 示 。 

RAW-IL: mul I2，…，… 

RAW-I2 : add 一 ， 2 ， : 

此 时 RAW-I2 需要 等 待 RAW-I1 指令 执行 了 完毕 ,获得 寄存 器 t2 的 值 后 才能 继续 执行 。 这 
类 相关 也 称 为 Read-after-Write 相关 (Read-after-Write dependencies) ,简称 为 RAW 相关 。 

(4) 存储 相关 。 产 生 这 类 相关 的 主要 原因 是 不 同 指令 在 处 理 器 的 流水 线 中 运行 时 ,不 同 
的 指令 所 需要 的 机 器 周期 不 同 ,后 执行 的 指令 有 可 能 影响 前 一 条 指令 的 执行 结果 。 此 类 相关 
分 为 两 类 : Write-after-Read 相关 (Write-after-Read dependencies) , 简称 为 WAR; Write-after- 
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Write 相关 (Write-after-Write dependencies) ,简称 为 WAW。 

WAR 和 WAW 相关 的 例子 如 下 所 示 。 

WAR-IL: mul …，I2 ，… ; 

WAR-I2 add Ir2, 

由 于 指令 的 延 时 不 同 ， 虽然 指令 WAR-I1 将 先 于 WAR-I2 进行 译 码 和 发 射 ,但 是 指令 
WAR- 了 2 仍然 会 被 提前 执行 完毕 。 此 时 指令 WAR-I2 将 对 寄存 器 2 进行 修改 ,而 这 种 修改 必 
定 会 造成 指令 WAR-I1 执行 错误 。 此 类 相关 问题 被 称 为 WAR 相关 。 

WAW-I1: load 1r2,*…,…，; 

WAW-I2: add rr2, 

假如 指令 WAW-Il1 将 从 外 部 存储 器 中 取出 数据 放 到 寄存 器 r2 中 ,但 是 由 于 取 数 操作 慢 
于 指令 WAW-I2 中 的 加 法 操作 ,因此 指令 WAWI2 将 提前 执行 完毕 ,提前 修改 寄存 器 此, 导致 
了 指令 WAW-I1 的 执行 错误 。 此 类 相关 问题 被 称 为 WAW 相关 。 

由 于 发 生 WAR 和 WAW 相关 的 原因 是 在 后 面 的 指令 执行 对 在 之 前 的 指令 执行 造成 影 
啊 , 因 此 此 类 相关 也 称 为 反 向 相关 。 

一 些 高 级 的 处 理 器 采取 了 各 种 办 法 解决 以 上 提 到 的 各 种 相关 问题 。 比 如 ,为 了 减轻 控制 
相关 对 程序 执行 效率 的 影响 ,有 些 处 理 器 可 以 对 指令 进行 静态 和 动态 分 支 预测 。 

不 过 这 些 静 态 和 动态 分 支 预测 处 理 面 对 复 杂 的 if-else 或 switch-case 的 多 重 舱 套 , 还 是 显 
得 很 无 奈 。 程 序 员 根 据 所 使 用 的 处 理 器 结构 而 调整 程序 也 许 是 一 个 较为 合理 的 解决 方案 。 目 
前 ,各 类 处 理 需 在 激烈 的 竞争 中 ,结构 日 益 趋 同 ,一 个 在 奔腾 处 理 句 下 运行 效率 较 低 的 程序 在 
其 他 处 理 器 下 运行 结果 也 不 会 有 质 的 提高 ,估计 其 间 的 差别 只 是 从 特别 差 到 比较 差 而 已 。 

目前 没有 太 好 的 办 法 解决 数据 相关 。 数 据 相 关 是 由 指令 的 执行 顺序 导致 的 ,不 可 避免 。 
程序 员 可 以 对 算法 进行 优化 改进 ,去 减缓 或 者 规避 数据 相关 。 而 使 用 寄存 器 重 命 名 技术 是 解 
决 存储 相关 的 有 效 方法 。 采 用 寄存 器 重 命名 技术 可 以 成 功 地 消除 WAR 和 WAW 相关 。 目 前 
支持 乱 序 执行 的 处 理 器 基本 上 都 采用 了 寄存 器 重 命名 机 制 。 z 


2.6.3 寄存 器 重 命名 机 制 


寄存 占 重 命名 的 概念 并 不 复杂 ,就 是 将 指令 运行 时 所 使 用 的 寄存 器 用 重 命名 寄存 器 进行 
替换 ,之 后 再 将 重 命名 寄存 器 进行 回 写 的 技术 。 采 用 此 技术 后 ,需要 将 上 文 出 现 WAR 相关 的 
例子 中 I5 指令 使 用 的 R4 寄存 器 改 为 R4 ,I6 指令 中 使 用 的 R4 寄存 器 也 要 使 用 R4 ,如 表 2-6 
所 示 。 


表 2-6 ”使 用 重 命名 寄存 器 技术 后 (R2 x R4) + R2 * (R2+R2) 的 乱 序 执行 过 各 
i 
: 
: 
i 
: 


~ 一 
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采用 重 命名 寄存 器 技术 后 ,寄存 器 R4 将 被 重 命名 为 R4 ,此 时 处 理 器 再 采用 乱 序 执行 的 
方法 就 可 以 提高 程序 的 效率 。 

由 表 2-7 可 知 ,寄存 器 重 命名 方法 成 功 的 解决 了 15 和 13 之 间 的 WAR 相关 ,从 而 指令 I5 
可 以 提前 到 I3 指令 之 前 运行 ,提高 了 程序 的 运行 效率 。 


表 2-7 使 用 重 命名 寄存 器 技术 后 (R2 x R4) 二 R2 * (R2 十 R2) 的 乱 序 执行 过 程 


这 里 需要 提醒 读者 注意 ,在 表 2-7 的 指令 乱 序 执行 结束 后 ， 指令 的 运行 仍然 需要 按照 程序 

规定 的 顺序 完成 。 

尽管 重 命名 寄存 器 的 概念 比较 简单 ,但 是 如 何 管理 重 命名 寄存 器 , 何 时 才能 将 存放 在 重 命 

名 寄存 需 中 的 数据 回 写 到 处 理 器 的 寄存 器 中 ,如何 保证 指令 间 的 同步 ,及 一 共 需 要 设置 多 少 个 
重 命名 寄存 器 等 一 系列 问题 ,对 于 处 理 器 指令 设计 而 言 并 不 是 一 件 十 分 容易 的 事情 。 不 同 的 
处 理 盏 在 实现 重 命名 寄存 器 机 制 时 采取 了 不 同 的 方法 。 

1. E500 内 核 的 重 命名 寄存 器 

不 同 的 处 理 器 采用 不 同 的 方法 将 重 命名 寄存 器 放置 在 不 同 的 位 置 。 处 理 器 一 般 使 用 以 下 

几 种 方法 存放 重 命名 寄存 器 。 

e@ 采用 重 命名 寄存 器 与 系统 寄存 器 (在 PowerPC 处 理 器 中 ,这 些 系 统 寄存 器 包括 通用 寄 
存 人 种 R0 一 R31 和 CR 寄存 器 ) 独 立 的 结构 。 如 上 文中 提 到 将 系统 寄存 器 R4 首先 改 为 
重 命名 寄存 器 R4 ,然后 再 将 重 命名 寄存 器 R4' 回 写 到 系统 寄存 器 的 做 法 ,就 是 采用 了 
这 种 结构 存放 重 命名 寄存 器 。 

e@ 采用 重 命名 寄存 器 与 系统 寄存 器 合并 的 结构 。 采用 此 方法 的 最 大 优 点 是 不 需要 将 重合 
名 寄存 器 中 的 数据 重新 回 写 到 系统 寄存 器 ,从 而 稍微 提高 了 指令 运行 的 效率 。 但 是 采 
用 这 些 方法 会 稍微 加 大 对 系统 寄存 器 的 访问 延 时 。DEC 的 Alpha21264 处 理 髓 采用 了 
这 种 方法 存放 重 命名 寄存 器 。 

e@ 重 命名 寄存 器 的 索引 存放 在 指令 完成 队列 CQ 中 。 此 时 处 理 器 在 发 射 指令 之 前 将 严格 
按照 指令 执行 序列 分 配 CQ ,在 指令 的 执行 过 程 中 CQ 将 根据 指令 的 执行 状态 对 重 命 名 
寄存 器 进行 管理 ,并 要 保证 指令 一 定 按照 程序 执行 的 顺序 完成 。 当 指令 运行 结束 后 CQ 
中 相应 的 Entry 被 释放 。E500 内 核 有 可 能 采用 了 这 种 结构 。 

e@ 采用 指令 动态 发 射 的 处 理 器 可 以 将 重 命名 寄存 器 放 在 指令 发 射 单元 和 指令 执行 单元 之 
的 数据 缓冲 中 ,这 个 数据 缓冲 一 般 被 称 为 shelving buffer。 采 用 指令 动态 发 射 的 处 理 

共 分 两 个 步骤 进行 指令 发 射 。 首 先 将 要 发 射 的 指令 放 人 缓冲 ,然后 对 放 人 缓冲 中 的 
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数据 进行 相关 性 检查 ,之 后 再 决定 指令 是 否 执行 。 

在 一 个 处 理 器 内 核 的 设计 中 ,采取 何 种 方法 管理 系统 的 重 命名 寄存 器 涉及 许多 具体 的 量 
化 计算 ,上 文 提 到 的 管理 重 命名 寄存 器 的 方法 都 在 具体 的 处 理 器 中 得 到 了 应 用 ,这 些 方法 各 有 
优 劣 。 

Book EF 内 核 和 E500 内 核 手 册 并 没有 提供 有 关 重 命名 寄存 器 的 详细 设计 资料 ,不 过 我 们 
仍然 可 以 从 已 有 的 资料 中 获得 一 些 有 用 的 信息 。E500 内 核 在 指令 的 译 码 阶段 为 每 条 指令 分 
配 一 个 重 命 名 系统 寄存 器 和 一 个 重 命名 CR 字段 寄存 器 ,尽管 有 些 指 令 可 能 并 不 需要 重 命名 
寄存 船 。 为 此 E500 内 核 提 供 了 14 个 重 命 名 寄存 器 和 14 个 CRn 寄存 器 。 

重 命名 寄存 器 和 CQ 队列 保证 了 指令 可 以 在 执行 阶段 乱 序 而 在 指令 运行 结束 后 按 程序 的 
顺序 结束 ,并 将 重 命名 寄存 器 写 人 相应 的 系统 寄存 器 中 。 

这 里 要 提醒 读者 注意 ,本 书 作 者 并 没有 获得 E500 内 核 有 关 寄 存 器 重 命名 设计 的 详细 资 
料 。 因 此 以 下 文字 是 有 关 寄 存 器 重 命名 技术 的 一 种 实现 方式 ,并 不 作为 E500 内 核 的 参考 。 
下 文 将 用 处 理 器 C 对 E500 内 核 进行 替换 ,其 中 处 理 器 C 具有 除了 寄存 器 重 命名 实现 机 制 外 
E500 内 核 的 一 切 特性 。 

在 实现 寄存 器 重 命 名 结构 时 ,处 理 器 C 为 系统 寄存 器 在 指令 运行 时 维护 两 张 表 。 其 中 一 
张 表 用 来 记录 系统 寄存 器 和 重 命名 寄存 器 的 关系 , 另 一 张 表 用 来 描述 重 命 名 寄存 器 的 结 者 构 ,本 
文 将 这 两 个 表 分 别称 为 重 命名 寄存 器 索引 表 和 重 命 名 寄存 器 描述 表 。 

2. 重 命 名 寄存 器 的 索引 表 与 描述 表 

重 命名 寄存 器 的 索引 表 见 表 2-8。 

处 理 侨 C 共 支 持 32 个 通用 寄存 器 ,因此 表 2-8 重 命名 寄存 器 索引 表 
此 索引 表 的 深度 为 32 , 即 为 每 一 个 通用 寄存 器 
建立 与 重 命名 寄存 器 相关 的 索引 ,该 索引 表 由 
三 项 组 成 。 

e Number 字段 。 该 字段 用 来 记录 32 个 
通用 寄存 右 的 号 码 。 在 IC 设计 中 ,可 
以 用 重 命名 寄存 器 索引 表 的 号 码 替代 
该 字段 ,以 节约 资源 。 

e Valid 位。 该 位 用 来 表示 当前 通用 寄存 
央 是 否 被 重 命名 。 为 1 时 表示 该 通用 
寄存 器 已 经 被 重 命名 ,为 0 表示 该 通用 
寄存 器 没有 被 重 命名 。 

e@ Rename Register Index 字段 。 该 字段 用 来 表示 重 命名 寄存 器 和 当前 的 通用 寄存 器 对 应 
关系 。 

在 处 理 融 C 中 一 共有 14 个 重 命名 寄存 器 。 因 此 最 多 能 够 建立 14 个 对 应 关系 。 如 表 2-8 

所 示 ,寄存 器 r10 所 对 应 的 Entry 的 Valid 位 为 1,Rename Register Index 为 7, 此 Entry 表示 重 
命名 寄存 器 7 与 R10 相对 应 。 

重 命名 寄存 器 的 描述 表 见 表 2-9。 


Number Valid Rename Register Index 
12 


31 


| 一 
©O 
bo) 
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表 2-9 重 命名 寄存 器 描述 表 


De ee 






Value Valid 










处 理 器 C 一 共有 14 个 重 命 名 寄存 器 ,因此 重 命名 寄存 器 描述 表 的 深度 为 14。 该 表 的 每 
一 Entry 由 5 个 字段 组 成 。 
e Valid。 此 位 用 来 表示 当前 Entry 是 否 有 效 , 为 0 时 表示 此 Entry 无 效 可 以 被 重 命名 寄 
存 器 索引 表 使 用 ,为 1 时 表示 该 表 项 已 经 与 重 命名 索引 表 建 立 连接 。 
@ Dest Reg Number(DRN)。 当 Valid 位 为 1 时 用 来 表示 该 Entry 与 那个 通用 寄存 器 建立 
@ Value。 该 字段 用 来 存放 在 重 命 名 寄存 器 中 的 数值 。 
@ Value Valid。 该 位 为 0 时 表示 Value 字段 的 数据 无 效 ( 写 指令 没有 执行 完毕 ,或 者 该 指 
令 在 GIQ 或 预约 站 中 ), 为 1 时 表示 Value 字段 中 的 数据 有 效 ( 指 令 执行 单元 已 将 数据 
写 人 重 命 名 寄存 器 中 )。 
e Latest bit 用 来 表示 当前 Entry 中 所 代表 的 重 命名 寄存 器 是 不 是 最 新 的 。 为 1 表示 是 最 
新 的 ,为 0 表示 不 是 最 新 的 。 有 时 同一 个 通用 寄存 器 会 被 多 次 重 命名 。 如 下 所 示 。 
WAW-Il: load 2 ，…， ; 
WAW-I2: add r2, ; 
此 时 2 寄存 器 将 使 用 两 个 重 全 5 名 寄存 器 描述 表 的 Entry 对 22 寄存 器 进行 重新 命名 。 
如 表 2-9 所 示 ,该 重 命名 寄存 器 的 第 7 个 Entry 表示 , 重 命名 寄存 器 7 与 通用 寄存 器 r10 
相对 应 ,该 重 命名 寄存 器 中 存放 的 值 为 50。 

3. 重 命名 寄存 器 的 维护 

处 理 器 C 在 指令 发 射 阶段 将 为 每 一 条 指令 的 目的 操作 数 分 配 一 个 重 命 名 寄存 器 ,并 为 该 
指令 分 配 一 个 CRn 重 命名 寄存 器 ,为 简单 起 见 ,本 书 将 不 对 CRn 重 命 名 寄存 需 进 行 说 明 。 表 
2-10 是 在 (R2 x R4) + R2 x (R2+R2) 程 序 执行 时 ,处 理 器 C 使 用 重 命 名 寄存 器 的 例子 。 该 表 
的 上 半 部 分 是 原始 程序 ,从 中 可 以 发 现 指令 了 2 存在 WAR 相关 ,指令 I3 存在 RAW 相关 而 指 
令 I4 存在 WAW 相关 。 


表 2-10 对 (R2xR4)+ Ls (R2+R2) 程 序 使 用 的 寄存 器 进行 重 命名 


Il Mult R10, R11, R2 R10 — RI1l * R2 
12 Add R11, R3, R4 R11 < R3 + R4 R11 WAR 
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( 续 ) 
E ET 
1 
ET 
RAW 


处 理 絮 C 在 执行 11 ~~I4 这 段 指令 时 ,需要 首先 对 其 进行 寄存 器 重 命名 ,如 将 R10 替换 为 
R10' ,将 R11 替换 为 R11 ,将 R12 替换 为 R12 与 R12 ,注意 ,R12 寄存 器 在 指令 I3 和 I4 中 均 
作为 目的 操作 数 ,因此 重 命名 寄存 器 的 描述 表 中 有 两 个 Entry 描述 R12 寄存 器 。 

当 上 述 这 段 指令 在 处 理 器 C 中 运行 时 ,首先 假定 CQ 队列 为 空 ,此 时 CQ0 一 3 分 别 与 IL 一 
4 对 应 ,以 保证 程序 按照 顺序 结束 。 

由 于 采用 了 寄存 器 重 命名 技术 消除 了 WAR 类 型 相关 ,指令 I2' 不 需要 等 竺 指令 IL 执行 
完毕 即 可 运行 ,因此 指令 II 和 I 可 以 同时 在 MU 和 SUI1 中 运行 。 而 指令 I3 和 I4 必须 等 待 
指令 12 将 寄存 器 R11 的 结果 计算 完毕 后 ,才能 执行 , 因为 重 命名 寄存 器 的 技术 无 法 解决 
RAW 类 相关 。 

在 I3 、I4 指令 中 将 不 直接 使 用 系统 寄存 器 R11, 而 是 重 命名 寄存 器 R11 ,这 种 做 法 将 会 提 

高 指令 的 执行 效率 ,使 用 重 命名 寄存 器 R11' 可 以 保证 系统 寄存 器 R11 在 没有 被 更 新 前 就 可 以 
执行 1 3 和 14, 而 不 需要 等 待 指令 运行 完毕 再 执行 13,14 指令 

指令 I1 将 在 指令 执行 完毕 后 释放 重 命名 寄存 器 R10 ,而 R11 的 释放 需要 注意 同步 ,因为 
I3 ,I4 仍然 要 使 用 R11 。 此 时 可 能 的 设计 是 在 同步 系统 寄存 器 R11 的 时 候 , 将 重 命名 寄存 器 
索引 表 中 的 Valid 位 清 0。 当 I3 和 14 访问 R11 时 将 检索 重 命名 寄存 器 索引 表 , 如 果 Valid 为 
1 则 使 用 R11' ,如 果 为 0 则 使 用 R11。 

在 R11' 寄存 器 的 结果 计算 出 后 ,I3 和 I4 可 以 继续 执行 ,此 时 需要 将 R12 寄存 器 进行 多 次 

命名 ,I3 中 的 R12 被 命名 为 R12',14 中 的 R12 被 命名 为 R12 。 此 时 的 结果 如 重 命名 寄存 器 
的 搬 过 所 下 R12 使 用 重 命 名 寄存 器 描述 表 的 第 9 项 (Latest bit 为 0) , 而 R12 使 用 重 命名 
寄存 器 描述 表 的 第 13 项 (Latest bit 为 1)。 淘 汰 Latest bit 为 1 的 重 命名 寄存 器 描述 表 项 时 需 
要 保证 Latest bit 为 0 的 表 项 淘汰 后 才能 进行 。 

指令 I3 和 I4 因为 采用 了 寄存 器 重 命 名 技术 消除 了 WAW 相关 ， 因此 可 以 并 行 执行 。 在 
实际 的 IC 设 计时, 重 命名 寄存 器 索引 表 和 描述 表 较 为 复杂 ,这 部 分 的 具体 实现 也 涉及 一 些 专 
利 技术 ,大 多 数 厂商 都 没有 将 寄存 器 重 命 名 的 技术 完全 公开 。 这 一 部 分 与 指令 的 流水 线 调 度 、 
多 发 射 的 实现 密切 相关 ,是 指令 运行 的 重要 组 成 部 分 。 
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第 3 合 ”PowerPC 处 理 器 的 内 存 体系 结构 


PowerPC 处 理 器 的 内 存 体系 结构 由 内 存 管理 单元 MMU、Cache 的 管理 系统 总 线 的 设计 
及 其 他 一 系列 管理 部 件 组 成 。 内 存 体 系 结构 是 PowerPC 处 理 器 的 设计 核心 。 存 储 顺 访问 的 
效率 直接 影响 整个 PowerPC 处 理 器 系统 的 效率 ,为 此 PowerPC 处 理 器 在 设计 其 内 存 体系 时 ， 
采用 了 一 系列 方法 用 来 加 速 对 存储 器 的 访问 ,如 猜测 访问 (Speculative Access) 、 对 外 设 访问 时 
保持 Cache 的 一 致 性 等 方法 。 

本 章 将 以 PowerPC E500 内 核 为 例 对 PowerPC 处 理 器 的 内 存 体系 进行 说 明 ,其 主要 内 容 
包括 MMU 的 管理 ,LI1 Cache 的 组 成 和 ES00 内核 使 用 的 前 端 总 线 , 即 CCB( Core Complex 
Bus) 总 线 。 


3.1 PowerPC 处 理 器 的 MMU 


内 存 管 理 单元 MMU 是 处 理 器 的 重要 组 成 部 分 , 主要 功能 是 将 程序 使 用 的 虚拟 地 址 转换 
为 处 理 器 硬件 能 够 直接 访问 的 物理 地 址 。 在 支持 多 进程 的 操作 系统 中 ,每 个 进程 使 用 的 虚拟 

空间 独立 ,此 时 需要 使 用 处 理 器 提供 的 MMU 将 各 个 进程 使 用 的 地 址 空间 进行 有 效 隔离 。 

32 位 处 理 器 能 够 访问 的 最 大 物理 地 址 空间 仅 为 4GB, 然 而 在 有 些 操作 系统 中 ,如 Linux 
系统 ,每 一 个 进程 都 拥有 3GB 虚拟 地 址 空间 。 因 此 在 一 个 多 进程 操作 系统 中 使 用 的 虚拟 地 址 

空间 一 般 都 大 于 4 GB。 为 此 操作 系统 必须 采取 某 种 转换 机 制 建立 虚拟 地 址 空间 与 实际 物理 
空间 的 映射 。 

在 处 理 器 的 周围 ,除了 具有 可 以 直接 进行 访问 的 物理 内 存 , 如 SRAM,SDRAM 和 DDR ,还 
有 许多 外 部 设备 ,如 PCI 总 线 设备 , IDE 设备 等 。 这 些 物 理 内 存 和 外 部 设备 都 会 占用 处 理 带 
的 物理 地 址 空间 。 然 而 这 些 设备 与 处 理 器 进行 数据 传送 的 方式 往往 与 处 理 器 访问 内 存 的 方式 
不 同 , 如 有 些 外 部 设备 所 需要 的 物理 地 址 空间 往往 是 不 可 Cache 的 。 因 此 MMU 必须 合理 控 
制 和 管理 不 同 种 类 的 物理 地 址 空间 的 映射 。 

处 理 器 的 MMU 为 系统 软件 设立 了 转换 查找 表 以 支持 虚实 地 址 的 映射 。 在 这 些 查 找 表 
中 将 规定 虚实 地 址 的 对 应 关系 及 访问 控制 等 一 系列 信息 。 系 统 软件 将 利用 处 理 器 提供 的 查找 
表 完 成 虚实 地 址 的 映射 。 

E500 内 核 中 包含 内 存 管理 单元 MMU, ES00 内 核 MMU 中 共 使 用 了 两 个 查找 表 TLB0 
(Translation lookaside buffer) 和 TLB1 来 实现 虚拟 地 址 与 物理 地 址 的 转换 。 其 中 TLB0 用 来 
进行 页 式 映 射 ,而 TLB1 用 来 实现 段 式 映射 。 

E500 内 核 分 为 V1 和 V2 两 个 版 本 ,这 两 个 版 本 的 MMU 略 有 不 同 ,在 E500 V2 内 核 中 的 
物理 地 址 为 36 位 ,所 支持 的 最 大 物理 地 址 空间 为 64 GB。 而 V1 内 核 的 物理 地 址 为 32 位 ,所 
支持 的 最 大 物理 地 址 空间 为 4 GB。 此 外 V2 内 核 的 TLB0 和 TLBI 的 设置 也 与 V1 内 核 的 
TLB0 和 TLB1 有 些微 小 区 别 。 

在 PQIII 系列 处 理 器 中 , MPC8540/8560/8555/8541 处 理 器 使 用 E500 的 V1 内 核 ,而 
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MPC8548/8547/8545 /8543 人 处理 器 使 用 E500 的 V2 内 核 。 
本 市 将 主要 介绍 V1 内 核 的 MMU。 同 时 将 E500 内 核 的 MMU 与 PowerPC 603E 的 
MMU 进行 简单 比较 。 


3.1.1 ES00 V1 内 核 的 虚实 地 址 转换 


E500 V1 内 核 是 一 个 32 位 处 理 器 的 内 核 , 其 最 大 物理 地 址 空间 为 4GB。 下 文 将 E500 V1 
内 核 简称 为 E500 内 核 。E500 内 核 在 内 部 可 以 使 用 41 位 的 临时 虚拟 地 址 (Interim Virtual 
Address) ,因此 E500 内 核 所 能 直接 支持 的 最 大 虚拟 地 址 空间 为 1 TB。E500 内 核 MMU 的 主 
要 作用 就 是 将 1TB 的 虚拟 地 址 空间 映射 到 .4 GB 的 物理 地 址 空间 中 。E500 内 核 的 41 位 虚拟 
地 址 组 成 如 图 3-1 所 示 。 


MSR 





41 位 的 虚拟 地 址 
图 3-1 E500 内 核 的 虚拟 地 址 组 成 


从 图 3-1 可 知 ,ES00 内 核 的 41 位 虚拟 地 址 由 1 位 AS,8 位 PID 和 32 位 的 EA 组 成 。 其 
中 各 个 位 的 描述 如 下 。 

(1) AS 位。 该 位 来 自 E500 内 核 MSR 寄存 器 的 IS 位 或 者 DS 位 。 当 E500 内 核 访问 指 
令 空 间 时 AS 位 为 MSR 寄存 器 中 的 IS 位 , 当 访 问 数据 空间 时 AS 位 为 MSR 寄存 器 DS 位 。 

在 ES00 内核 中 根据 AS 位 的 不 同 将 地 址 空间 分 为 两 种 ,分 别 为 地 址 空间 0 和 地 址 空间 1。 
当 AS 位 为 0 时 ,E500 内 核 使 用 地 址 空间 0, 当 AS 位 为 1 时 ,E500 内 核 使 用 地 址 空间 1。 当 
E500 内 核 进 入 中 断 或 者 其 他 异常 处 理 程序 时 ,MSR 寄存 器 的 IS 位 和 DS 位 将 被 清 零 ,因此 中 
断 及 其 他 异常 的 处 理 程序 必须 运行 在 E500 的 程序 地 址 空间 0 中 ,在 这 段 程序 中 所 访问 的 数 
据 也 必须 要 在 数据 地 址 空间 0 中 。 在 E500 内 核 中 设置 两 个 地 址 空间 的 本 意 是 让 系统 软件 使 
用 地 址 空间 0 , 而 应 用 软件 使 用 地 址 空间 1。 

然而 ,Linux PowerPC 没有 使 用 地 址 空间 1, 所 有 指令 数据 访问 都 将 在 地 址 空间 0 中 , 即 
虚拟 地 址 的 AS 位 在 Linux 系统 运行 过 程 中 始终 为 0。Vxworks 系统 使 用 了 E500 内 核 提 供 的 
地 址 空间 0 与 地 址 空间 1。 

(2) PID 字段 。ESs00 内 核 一 共 支 持 3 个 8 位 的 PID 寄存 器 用 来 保存 当前 进程 的 ID。PID 
寄存 器 的 使 用 可 以 对 不 同 的 进程 空间 进行 保护 。 目 前 Linux PowerPC 并 不 支持 ES00 内 核 的 
PID 寄存 器 ,而 简单 地 将 TLB 中 所 有 Entry 的 TID 位置 为 0 以 忽略 对 PID 寄存 器 的 检查 。 实 
际 上 在 Linux PowerPC 中 ,可 以 使 用 PID 字段 保存 每 一 个 进程 的 PGD 指针 ,从 而 加 速 进程 的 
切换 速度 ,但 是 Linux PowerPC 为 统一 起 见 并 没有 使 用 PID 字段 保存 PGD 指针 ,而 是 将 每 一 
个 进程 的 PGD 指针 保存 在 物理 内 存 中 。Linux PowerPC 并 没有 充分 利用 E500 内 核 提 供 的 
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MMU。 

(3) EA(Effective Address) 字 段 。 该 字段 用 来 存放 被 访问 数据 的 有 效 地 址 。ES00 内 核 的 
有 效 地 址 为 32 位 。 有 效 地 址 EA 是 在 程序 中 能 够 直接 使 用 的 地 址 。E500 内 核 的 EA 由 有 效 
地 址 页 表 索 引 EPN(Effective Page Number) 和 地 址 偏 移 Offset 两 部 分 组 成 。 

比如 在 指令 “lwz r4, 8(r5)” 中 r5 寄存 器 中 存放 的 地 址 就 是 有 效 地 址 。E500 内 核 的 有 效 
地 址 为 32 位 。 在 Linux PowerPC 中 ,E500 内 核 虚 拟 地 址 的 AS 位 和 PID 字段 并 没有 被 使 用 ， 
因此 数据 的 有 效 地 址 等 效 于 该 数据 的 虚拟 地 址 。 

E500 内 核 中 使 用 了 两 级 MMU 结构 ,LI-MMU 和 L2-MMU ,以 及 一 些 辅助 寄存 器 和 指令 
用 以 支持 虚实 地 址 转换 。E500 内 核 的 内 存 管理 与 其 他 PowerPC 体系 的 内 存 管理 有 较 大 区 
别 ,在 E500 内 核 中 地 址 转换 不 能 被 禁止 ,并 在 内 部 支持 两 个 地 址 空间 ,分别 为 地 址 空间 0 与 
地 址 空间 1,E500 内 核 的 虚实 地 址 转换 流程 如 图 3-2 所 示 。 


41 位 的 虚拟 地 址 


Ll MMU 
TI-L1lVSP I-L1TLB4K 
D-LIVSP D-L1TLB4K 


L2 MMU 
16-entry 





256-entry 
2-Way Set Assoc 


Fully-Assoc 
TLB1 
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三 一 一 一 一 一 一 


32 位 的 物理 地 址 
图 3-2 E500 内 核 的 虚拟 地 址 组 成 


603E 内 核 的 MMU 可 以 被 关闭 , 当 处 理 器 进入 异常 和 中 断 处 理 程序 时 ,MMU 将 自动 被 
关闭 ,从 而 处 理 器 可 以 对 物理 地 址 空间 直接 访问 。 

E500 内 核 的 32 位 物理 地 址 由 物理 地 址 页 表 索 引 RPN(Real Address page Number) 和 偏 
移 组 成 。E500 内 核 在 使 用 MMU 进行 虚实 地 址 转换 时 ,只 需要 获得 物理 地 址 的 RPN 参数 ,而 
物理 地 址 的 偏 移 Offset 参数 将 从 虚拟 地 址 中 直接 获得 。 

L1 MMU 包括 LL1VSP,D-L1VSP, I-LITLB4K 与 D-LITLB4K。ILIVSP,D-LIVSP 含 
有 4 个 Entry, 采 用 全 相 联 的 结构 。LLITLB4K,D-LITLB4K 含有 64 个 Entry, 采 用 4 路 组 相 
联 的 结构 。 在 LI-MMU 中 ,LLLVSP 和 D-LIVSP 是 TLBI1 的 数据 缓冲 ,而 LLITLB4K 和 DD- 
LITLB4K 是 TLB0O 的 数据 缓冲 。 

E500 内 核 中 设置 Ll1 MMU 有 以 下 两 个 作用 : 
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e@ LI MMU 的 访问 速度 较 快 。 在 多 数 情况 下 E500 内 核 进行 虚实 地 址 转换 时 ,虚拟 地 址 
都 可 以 在 Ll1 MMU 中 命中 ,从 而 提高 虚实 地 址 转换 的 效率 。 

e E500 内 核 的 LI1 MMU 采用 程序 空间 的 地 址 转换 与 数据 空间 的 地 址 转换 分 离 的 方法 。 
LI MMU 的 这 种 哈佛 结构 可 以 提高 指令 空间 与 数据 空间 进行 地 址 转换 的 效率 。 在 
PowerPC 603E 内 核 中 没有 采用 LI MMU , 而 是 直接 使 用 IBAT 和 DBAT 实现 块 式 内 存 
映射 ,将 指令 空间 与 数据 空间 的 虚实 地 址 转换 分 离 ,并 采用 SR 寄存 器 和 TLB 实现 页 式 
映射 。 其 中 IBAT 和 DBAT 的 作用 与 ES00 内 核 的 TLB1 类 似 ,而 SR 寄存 器 和 TLB 的 
作用 与 TLB0 类 似 。 

E500 内 核 的 L2 MMU 包括 TLB0 和 TLB1。 其 中 TLBI1 含有 16 个 Entry, 而 TLBO 含有 
256 个 Entry。 进 行 地 址 虚实 转换 时 ,如 果 虚 拟 地 址 在 Ll 和 L2 MMU 中 都 没有 命中 ,将 引发 
TLB Miss 异常 ,并 在 异常 程序 中 使 用 PTE 表 继 续 进 行 虚实 地 址 转换 ,PTE 表 存 放 在 物理 内 存 
中 ,不 同 的 操作 系统 对 PTE 表 的 处 理 不 尽 相 同 。 

在 E500 内 核 中 ,一 个 完整 的 虚实 地 址 转换 步骤 如 下 所 示 : 

(1) E500 内 核 在 进行 地 址 转换 时 将 首先 确定 是 对 程序 地 址 还 是 数据 地 址 进行 转换 。 如 
采 是 进行 程序 的 地 址 转换 ,E500 内 核 将 首先 查找 LLIVSP 和 LLITLB4K, 否则 将 查找 D- 
LIVSP 和 D-LITLB4K。 

(2) 在 Ll MMU 中 根据 当前 虚拟 地 址 ,查找 物理 地 址 的 RPN。 如 果 当 前 虚拟 地 址 在 L1 
MMU 中 命中 , 则 获得 对 应 的 RPN, 并 结束 虚实 地 址 转换 。 如 果 当 前 虚拟 地 址 没有 在 L1 
MMU 中 命中 , 则 继续 在 L2 MMU 中 查找 。 

(3) 在 L2 MMU 的 TLB0 和 TLBI 中 继续 根据 虚拟 地 址 ,查找 物理 地 址 的 RPN。 在 一 个 
基于 E500 内 核 的 处 理 器 系统 中 ,会 根据 实际 需要 将 TLB1 进行 初始 化 , TLBI 在 完成 最 终 的 
初始 化 后 ,一 般 不 会 变化 ,而 TLB0 将 会 被 动态 调整 。 在 进行 虚实 地 址 转换 时 ,不 能 出 现 两 个 
虚拟 地 址 同时 出 现在 TLB0 或 者 TLB1 中 ,如 果 出 现 这 种 现象 可 能 会 导致 不 可 预料 的 错误 。 
如 果 当 前 虚拟 地 址 在 TLBO 或 者 TLB1 中 命中 ,E500 内 核 获得 相应 的 RPN ,并 结束 虚实 地 址 
转换 。 

(4) 如 果 当 前 的 虚拟 地 址 在 TLBO0 或 者 TLBI 中 都 没有 命中 ,E500 内 核 将 会 产生 ITLB 
Miss 或 者 DTLB Miss 异常 ,之 后 异常 处 理 程序 将 搜索 在 物理 内 存 中 的 PTE 表 , 获得 相应 的 
RPN 后 对 TLB0 进行 更 新 ,同时 获得 RPN。 

(5) 如 果 在 PTE 表 中 还 没有 获得 合适 的 RPN, 将 进一步 对 虚拟 地 址 进行 分 析 , 这 一 过 程 
较为 复杂 。Linux 系统 使 用 page _ fault 函数 处 理 这 种 情况 ,该 函数 将 在 下 文 详细 介绍 。 


3.1.2 Ll MMU 和 LL2 MMDU 中 的 Entry- 


E500 内 核 的 LI MMU 和 L2 MMU 中 包含 了 许多 Entry, 在 这 些 Entry 中 又 包含 了 许多 
字段 用 来 支持 虚实 地 址 的 转换 。 系 统 软件 不 能 直接 操作 LI1 MMU 的 Entry, 而 是 通过 操作 L2 
MMU 的 Entry 来 影响 LI MMU 的 Entry。 

Ll MMU 和 L2 MMU 的 Entry 包含 以 下 字段 和 位 。 

(1) V 位 。V 位 用 来 表示 当前 Entry 是 否 有 效 , 当 VV 位 为 0 时 ,表示 当前 Entry 无 效 ;为 1 
时 ,表示 当前 Entry 有 效 。 在 系统 复位 完成 时 ,LI MMU 和 L2 MMU 中 所 有 Entry 的 V 位 为 
0 ,表示 所 有 的 Entry 都 无 效 。 
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(2) TS 位 。TS 位 为 0 时 ,表示 当前 的 Entry 描述 的 地 址 空间 属于 有 效 地 址 空间 0; 为 1 
时 ,表示 当前 的 Entry 描述 的 地 址 空间 属于 有 效 地 址 空间 1。 

(3) TIDL0:7] 字 段 。E500 内 核 进 行 虚实 地 址 转换 时 ,会 将 TID 字段 与 寄存 器 PIDL0 一 2] 
中 存放 的 数据 进行 比较 ,如 果 存 放 在 PID 寄存 器 的 值 与 TID 字段 都 不 相等 , 则 产生 TLB Miss 
异常 。 当 TID 字段 为 0 时 ,E500 内 核 将 忽略 PID 寄存 器 与 TID 字段 的 比较 。Linux PowerPC 
将 TID 字段 设置 为 0。 

(4) EPN[0:19] 字 段 。 该 字段 用 来 存放 当前 Entry 描述 的 有 效 地 址 页 表 号 。 对 于 TLB1， 
该 字段 随 SIZE 字段 的 不 同 , 其 有 效 位 数 不 同 。 对 于 TLB0 ,该 字段 的 所 有 位 有 效 。 

(5) RPN[0:19] 字 段 。 该 字段 用 来 存放 当前 Entry 描述 的 物理 地 址 页 表 号 。 对 于 TLB]1， 
该 字段 随 SIZE 字段 的 不 同 , 其 有 效 位 数 不 同 。 对 于 TLB0 ,该 字段 的 所 有 位 有 效 。 

(6) SIZEL0:3] 字 段 。SIZE 字段 用 来 存放 当前 Entry 的 页 表 大 小 。E500 内 核 的 TLBO 只 
支持 固定 大 小 的 页 表 尺 寸 4 KB, 其 SIZE 字段 的 值 只 能 为 0001; 而 TLB1 支持 的 页 表 尺 寸 可 
变 ,SIZE 字段 的 值 可 以 为 0001 一 1001。 

(7) PERMIS[0-5] 字 段 。 该 字段 用 来 描述 当前 Entry 的 访问 控制 位 , 共 由 6 位 组 成 。 分 
别 是 UX 位 (User-mode Execution) ,该 位 为 1 时 表示 此 Entry 描述 的 空间 在 E500 内 核 处 于 用 
户 模 式 时 可 以 执行 程序 ;SX 位 (Supervisor-mode Execution) ,该 位 为 1 时 表示 在 E500 内 核 处 
于 超级 用 户 模 式 时 可 以 执行 程序 ;UW (User-mode Write) 位 ,UR(User-mode Read) 位 ,SW 
(Supervisor-mode Write) 位 和 SR(supervisor-mode read) 位 ,此 四 位 为 1 时 分 别 表示 在 E500 内 
核 处 于 用 户 模式 和 超级 用 户 模式 时 可 写 、 可 读 。 

(8) WIMGE 字段 。 该 字段 是 Entry 中 的 重要 字段 。 其 中 下 位 用 来 确定 当前 Entry 描述 
的 内 存 空 间 存放 数据 是 使 用 大 端 还 是 小 端 方式 ,E500 内 核 可 以 为 每 一 个 页 面 区 间 进 行 端 模 式 
选择 。 而 许多 PowerPC 处 理 器 ,如 603E 内 核 只 能 设置 MSR 寄存 器 中 的 LE 位 用 来 选择 整个 
处 理 器 中 所 用 的 内 存 空间 是 采用 大 端 模式 还 是 小 端 模 式 , 而 不 能 分 别 对 每 一 段 地 址 空间 进行 
设置 。E500 内 核 的 MSR 寄存 器 中 没有 LE 位 。 这 里 提醒 读者 注意 ,PowerPC 处 理 器 基本 上 
都 使 用 大 端 模式 。WIMG 四 位 将 在 下 文中 详细 介绍 。 

(9) X0,X1 位 。 这 两 位 用 来 描述 当前 Entry 的 一 些 额 外 属性 ,E500 内 核 没 有 规定 系统 软 
件 将 如 何 使 用 这 两 位 。 

(10) U[0:3] 字 段 。 系 统 软件 可 以 使 用 该 字段 用 于 一 些 自 定 义 的 用 途 。 

(11) IPROT 位 。 当 IPROT 位 为 1 时 ,表示 当前 Entry 被 保护 ,系统 软件 不 能 使 用 tlbivax 
指令 或 者 对 MMUCSR0 寄存 器 进行 操作 ,将 该 Entry 使 无 效 。 该 位 只 能 被 tlbwe 指令 清 零 或 
者 置 1。ES00 内 核 中 ,只 有 TLBI 支持 该 位 。 在 TLB0 的 Entry 中 ,IPROT 位 只 能 为 0。 

E500 内 核 中 的 虚拟 地 址 使 用 LI MMU,TLBO 或 TLB1 中 的 Entry 进行 地 址 转换 时 ,要 根 
据 以 下 和 条件, 判断 当前 虚拟 地 址 是 否 在 TLB 的 Entry 中 命中 。 

e@ 首先 参与 比较 的 Entry 的 V 位 必须 有 效 。 

@ Entry 中 的 TS 位 与 MSR 的 寄存 器 的 IS 或 DS 位 相等 。 

e@ Entry 的 TID 字段 需要 与 PID0,PID1 或 者 PID2 寄存 器 中 任意 寄存 器 的 内 容 相等 。 当 

TID 字段 为 0 时 ,忽略 与 PID 寄存 器 的 比较 。 

@ Entry 中 的 EPN 字段 是 否 与 虚拟 地 址 的 EPN 相等 。 

e Entry 中 的 PERMIS 字段 满足 当前 对 虚拟 地 址 的 操作 。 
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当 一 个 虚拟 地 址 满足 上 述 所 有 条 件 时 ,该 虚拟 地 址 在 TLB0 或 者 TLBI1 中 的 某 个 Entry 
中 命中 ,此 时 可 以 获得 该 Entry 的 RPN 字段 。 将 此 RPN 字段 与 虚拟 地 址 的 Offset 字段 级 联 
束 可 以 获得 该 虚拟 地 址 的 物理 地 址 ,从 而 完成 虚拟 地 址 到 物理 地 址 的 转换 。 


3.1.3 与 MMU 管理 相关 的 寄存 器 


E500 内 核 中 设置 了 一 系列 寄存 器 用 来 对 MMU 进行 维护 与 更 新 , 这些 寄 存 器 包括 对 
MMU 进行 管理 和 配置 的 寄存 器 和 对 TLB 中 的 Entry 进行 配置 和 管理 的 寄存 器 。 

1. PID0~2 寄存 器 

PID0 一 2 寄存 器 (Process ID registers) 用 来 存放 当前 进程 有 效 地 址 的 进程 ID 号 ,该 寄存 器 
的 第 54 一 63 字段 共 8 位 有 效 。 由 3.1.1 节 可 知 ,ES00 内 核 的 41 位 虚拟 地 址 由 AS,PID 字段 
和 有 效 地 址 EA 组 成 。 该 组 寄存 器 就 是 用 来 存放 虚拟 地 址 的 PID 字段 。 

在 Book EE 中 只 有 PID0 寄存 器 有 效 ,PID1 一 2 寄存 器 只 在 E500 内 核 中 有 效 。 

2. MMUCSR0 寄存 器 

MMUCSRO(MMU Control and Status Register 0) 寄 存 器 用 来 使 无 效 TLBO 和 TLB1 的 所 
有 Entry, 即 将 Entry 中 的 V 位 清 零 。 该 寄存 器 一 共 由 两 位 组 成 。 

e L2TLBO _FI 位 。 对 此 位 写 1 时 将 使 无 效 TLB0 内 的 所 有 Entry。 

e L2TLB1 _ I 位 。 对 此 位 写 1 时 将 使 无 效 TLB1 内 的 所 有 Entry。 

当 对 以 上 各 位 写 1 时 将 使 无 效 TLB 内 的 所 有 Entry, 当 使 无 效 操作 结束 后 ,该 位 将 会 被 自 

3. MMUCFG 寄存 器 

MMUCFG(MMU Configuration Register) 寄 存 器 用 来 保存 当前 MMU 管理 单元 的 配置 信 
息 ,包括 PID 寄存 器 的 数量 ,大 小 ,TLB 的 数量 及 MMU 体系 结构 的 版 本 号 ,此 寄存 器 只 读 。 

4. TLBOCFG 和 TLB1CFG 寄存 器 

其 中 TLBOCFG 和 TLBICFG 寄存 器 用 来 描述 TLB0 和 TLBI 的 结构 信息 包括 TLB 的 
Entry 数量 ,页 表 的 尺寸 等 信息 。 这 两 个 寄存 器 只 读 。 

5. MAS0~4 及 MAS6~7 寄存 器 

MAS0 一 4 及 MAS6 一 7(MMU Assist Registers) 寄 存 器 的 主要 作用 是 维护 MMU 管理 单元 
中 TLB 的 各 个 Entry。 

寄存 器 MAS1 一 3 中 存放 的 各 个 字段 与 TLB 中 Entry 的 各 个 字段 一 一 对 应 。 系 统 软件 在 
对 TLB 的 Entry 进行 写 操作 时 ,将 根据 MAS0 寄存 器 的 值 将 存放 在 MAS1 一 3 寄存 器 中 的 字 
段 写 入 到 相应 Entry 的 各 个 字段 中 。E500 内 核 使 用 指令 tlbre 和 tlbwe 对 TLB 中 的 Entry 进 
行 读 写 操作 。 

寄存 器 MAS0 的 主要 字段 的 含义 如 下 所 示 。 

(1) TLBSEL 字段 。 该 字段 用 来 选择 即将 操作 的 TLB, 为 0 时 表示 使 用 TLB0; 为 1 时 表 
示 使 用 TLB1。 

(2) ESEL 字段 。ESEL 字段 用 来 选择 TLB 中 的 Entry。 当 使 用 TLB1 时 ,ESEL 字段 中 
的 低 4 位 有 效 , 用 来 选择 TLBI 的 Entry 数 ,TLB1 只 有 16 个 Entry。 

当 使 用 TLB0 时 ,ESEL 字段 只 有 最 低 一 位 有 效 ,用 来 选择 TLB0 的 组 ,E500 内 核 的 TLB0 
使 用 2 路 组 相 联结 构 , 此 时 E500 内 核 还 需要 使 用 MAS2 寄存 器 的 EPN 字段 的 第 45 一 51 位 选 
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择 在 不 同 组 内 的 Entry。E500 V1 内 核 中 ,TLBO 使 用 了 256 个 Entry, 因 此 一 共 需 要 8 位 来 表 
不 TLB0 的 Entry 数 。 

(3) NV 位 。NV 位 对 于 TLB1 没有 意义 。E500 内 核 中 ,只 有 NV 字段 的 最 低位 有 效 。 在 
执行 TLB 写 操作 时 NV 位 将 被 写 人 TLB0O 的 相应 Entry 中 。 在 TLB0 的 所 有 Entry 都 被 使 用 
而 且 发 生 了 TLB Miss 后 ,需要 替换 TLB0 中 的 Entry, 此 时 E500 内 核 使 用 此 位 确定 如 何 对 
TLBO 中 的 Entry 进行 蔡 换 。 

寄存 种 MAS1 一 3 的 各 个 字段 与 TLB 中 Entry 中 的 各 个 字段 一 一 对 应 , 且 含 义 相 同 ,包括 
V 位 ,IPROT 位 ,TID 字段 ,TS 位 ,TSIZE 字段 ,EPN 字段 ,X0 位 ,Xl 位 ,WIMEG 字段 ,RPN 
字段 ,U[0:3j 和 PERMIS 字段 。 

寄存 器 MAS4 用 来 存放 当 TLB miss 异常 发 生 时 ,对 MAS0 一 3 寄存 器 自动 加 载 而 使 用 的 
默认 值 。E500 内 核 为 提高 TLB Miss 异常 的 处 理 效率 , 当 TLB Miss 异常 出 现时 ,E500 内 核 将 
自动 把 MAS0 一 2 寄存 器 的 值 使 用 寄存 器 MAS4 中 的 值 替换 ,如 下 所 示 。 

e@ MASO[TLBSEL] < MAS4[TLBSELD] 

e MASI[TID] <— MAS4[TIDSELD] 

© MASI[TSIZE] < MAS4[ TSIZED] 

e@ MAS2[X0,X1] < MAS4[ XOD, X1D] 

e MAS2[WIMGE] < MAS4[WD, ID, MD, GD, ED] 

一 般 来 说 MAS4 中 的 TLBSELD 为 0, 表 示 使 用 TLBO0 处 理 TLB miss 异常 。TSIZED 为 
4KB, 与 TLB0 中 支持 的 页 表 大 小 相等 。 

MAS6 寄存 器 用 于 对 TLB 表 进 行 检索 , E500 内 核 使 用 tlbsx 指令 对 TLB 表 进 行 搜索 。 
tlbsx 指令 的 格式 为 “tlbsx RA,，RB”。 

tlbsx 指令 对 TLB 中 的 Entry 进行 检索 时 ,将 使 用 MAS6 寄存 器 中 的 SPID0 字段 和 SAS 
位 与 tlbsx 指令 中 的 RA+ RB( 或 者 RB) 组 成 的 有 效 地 址 级 联 , 然 后 组 成 一 个 41 位 的 虚拟 地 址 
后 再 对 TLB 进行 检索 。 


3.1.4 与 MMU 管理 相关 的 指令 


E500 内 核 中 设置 了 一 系列 指令 用 来 对 MMU 进行 维护 与 更 新 ,这 些 指令 包括 对 TLB 中 
的 Entry 进行 配置 和 管理 的 指令 ,如 tlbre,tlbwe,tlbsx ,tlbivax 和 tlbsync 等 。 

1. tlbre 指令 

tlbre 指令 用 于 读 取 TLB 中 的 相应 Entry。tlbre 指令 一 般 用 作 系 统 的 维护 诊断 ,在 Linux 
PowerPC 中 tlbre 指令 仅 在 系统 初始 化 中 得 到 了 使 用 。 在 使 用 tlbre 指令 读 取 TLB 的 Entry 前 
需要 对 MAS0 进行 设置 。 

tlbre 指令 不 使 用 操作 数 , 而 是 使 用 MAS 类 寄存 器 与 TLB 进行 数据 交换 。 

e 输入 :MAS0 寄存 器 的 TLBSEL 和 ESEL 字段 及 MAS2 寄存 器 的 EPN 字段 。 

注意 EPN 字段 在 对 TLB0 的 Entry 进行 读 时 有 意义 ,而 对 TLB1 的 Entry 进行 读 操作 时 
EPN 字段 将 被 忽略 ,因为 TLBI1 只 有 16 个 Entry, 使 用 4 位 的 ESEL 字段 就 足以 确定 相应 的 
Entry。 

对 TLB0 的 Entry 进行 操作 时 ,tlbre 指令 将 根据 MAS0 寄存 器 的 ESEL 和 MAS2 寄存 顺 
的 EPN 字段 确定 TLB0 的 Entry 号 ,并 使 用 此 Entry 号 进行 TLB 相应 Entry 读 操 作 。 
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e 输出 :将 指令 TLB 的 相应 Entry 的 各 个 字段 放 人 MAS1,MAS2 和 MAS3 寄存 怖 中 。 

2. tlbwe 指令 

tlbwe 指令 用 于 设置 TLB 中 相应 的 Entry。 

e 输入 :MAS0 寄存 器 的 TLBSEL，ESEL 和 MAS1 一 3 寄存 器 中 与 TLB Entry 对 应 的 

字段 。 

@ 输出 :无 。 

3. tlbsx 指令 

tlbsz 指令 的 格式 为 “tlbsx RA，RB”。tlbsx 指令 用 来 在 TLB 中 查找 与 指定 有 效 地 址 对 应 
的 Entry, 并 将 相应 Entry 的 内 容 放 入 MAS 寄存 需 中 。 

tlbsx 指令 使 用 RA+ RB( 或 者 RB) 产 生 的 有 效 地 址 和 MAS4 寄存 妖 中 存放 的 字段 ,对 
TLB 表 进 行 查找 ,如 果 命 中 , 则 将 相应 Entry 的 内 容 放 人 MAS0 一 3 寄存 器 中 。E500 内 核 要 求 
RA 寄存 器 存放 的 数据 为 0。 

4. tlbivax 指令 

tlbivax 指令 的 格式 为 “tlbivax RA，RB”。tlbivax 指令 的 主要 作用 是 使 用 RA + RB( 或 者 
RB) 产 生 的 有 效 地 址 和 MAS4 寄存 器 中 存放 的 字段 ,对 TLB 表 进 行 查找 ,然后 对 TLB 相应 的 
Entry 进行 使 无 效 操作 。 如 果 Entry 的 IPROT 位 为 1 时 tlbivax 指令 将 不 能 对 将 此 Entry 的 状 
态 置 为 无 效 。 

5. tlbsync 指令 

tlbsync 指令 用 于 同步 对 TLB Entry 的 读 写 。 该 指令 将 会 引发 系统 总 线 的 TLBSYNC 周 
期 。 其 主要 用 途 是 将 tlbivax 指令 的 更 新 Entry 信息 广播 到 系统 总 线 上 ,以 同步 在 系统 总 线 上 
的 其 他 处 理 器 的 内 存 系统 。 该 指令 仅 在 SMP 处 理 磺 中 有 效 。 

提醒 读者 注意 ,只 有 E500 内 核 的 HID 寄存 器 中 ABE 位 被 置 为 1 后 ,tlbsync 指令 才能 在 
系统 总 线 上 进行 广播 操作 。 


3.1.5 ESs00 内核 的 TLB1 


在 E500 内 核 中 ,TLB1 用 来 实现 虚拟 地 址 与 物理 地 址 之 间 的 段 映射 方式 。 在 E500 内 核 
复位 后 ,TLB1 中 除了 Entry0 之 外 ,其 他 的 Entry 都 被 置 为 无 效 。TLBI1 的 Entry 0 初始 值 如 
表 3-1 所 示 。 


表 3-1 E500 内 核 初始 化 后 TLB1 的 Entry 0 


字 段 复 位 值 注释 
V 表示 当前 Entry 有 效 
TS | 0 ”| 使 用 地 址 空间 0 
TID[0:7] “| ”0x00 | 不 与 PD 寄存 器 进行 比较 
RPN 
EPN | OxFPFFF | OAFPPFOO0 OFFPRAPP 枕 射 大 KB 
st 
SX/SR/SW 处 理 器 运行 在 超级 模式 时 可 以 对 此 空间 读 写 执行 
UX/UR/AUW | 000 | 处 理 器 运行 在 用 户 模式 时 不 可 以 对 此 空间 读 写 执行 
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( 续 ) 


字 段 复 位 值 注释 
对 此 空间 的 操作 不 使 用 Cache, 不 执行 存储 器 一 致 性 操作 , 不 对 存储 器 
WIMGE 0 人 


IPROT 此 Entry 受 保护 ,不 会 被 tlbivx 指令 使 无 效 


E500 内 核 的 系统 复位 地 址 是 0xFFFFFFFC。 此 时 系统 只 能 访问 从 0xFFFFF000 开始 的 
4KB 地 址 空间 。 在 这 段 程序 空间 里 ,引导 程序 需要 完成 对 TLBI1 的 其 他 Entry 初始 化 操作 , 建 
立 基 本 的 地 址 映射 。 

TLB1 支持 可 变 长 度 页 表 , 可 支持 的 页 表 大 小 如 表 3-2 所 示 ,TLBI1 中 一 共有 16 个 Entry， 
支持 的 最 大 内 存 地 址 空间 为 4GB。 改 变 TLB1 相应 Entry 的 SIZE 字段 将 会 调整 TLB1 中 所 
支持 的 页 表 大 小 。 

当 TLBI1 的 页 表 大 小 发 生变 化 时 ,进行 虚实 地 址 转换 需要 进行 比较 的 EPN 字段 的 有 效 位 
数 ,Offset 字段 的 有 效 位 数 也 随 之 改变 。 


潭 
CN 
LD, 
忆 
ed 
号 
m 
之 
J 
0 
0 

FE 
4 
好 
以 
eT 
下 
杀 
并 


po 
人 
po po po | 
3 
A 
4 
让 
nn 
CN 


EPN 的 有 效 位 数 Offset 的 有 效 位 数 
0000 Reserved 


20 0001 4 KB 


jw 

Cn 

jw 
S 
je 
© 
jw 
Cn 


0011 64 KB 
0100 


po 
[Be 
让 


0101 1 MB 


po 
© 
Be 


0110 4 MB 


Oo 
[We 


0111 16 MB 


CN 
(We 


1000 64 MB 


心 
ty 


1001 256 MB 
ES00 V1 内 核 不 支持 


粒 
亡 
| 


系统 软件 可 以 使 用 TLBI1 映射 I/O 空间 ,如 PCI 总 线 地 址 空间 ,RapidIO 地 址 空间 ,局 部 
地 址 总 线 空间 。 也 可 以 使 用 TLBI 对 主 存储 器 ,如 SDRAM、DDR ,进行 地 址 映射 。 使 用 TLBI1 
进行 映射 的 优点 是 配置 简单 ,一 次 可 以 将 最 多 256 MB 的 空间 进行 映射 。 对 于 许多 简单 的 应 
用 而 言 , 系 统 软 件 设计 可 以 只 使 用 TLBI 完成 虚实 地 址 空间 的 转换 。 而 不 需要 使 用 TLB0 进 
行 页 式 虚 实地 址 的 转换 。 

考虑 一 个 基于 MPC8540 处 理 器 的 人 艇 人 式 系统 ,在 此 系统 中 使 用 了 512 MB 的 DDR 作为 
主 存储 器 ,16 MB 的 Flash 作为 程序 空间 ,需要 支持 256 MB 的 PCI 空间 ,256 MB 的 RapidIO 
空间 ,32 MB 的 外 部 设备 空间 与 1 MB 大 小 的 MPC8540 内 部 存储 器 映射 的 寄存 器 空间 。 其 物 
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理 地 址 空间 如 表 3-3 所 示 。 
对 于 表 3-3 中 的 处 理 器 系统 ， 表 3-3 一 个 处 理 器 系统 的 存储 器 映像 
系统 软件 可 以 方便 地 使 用 TLBI 对 


外 上 空间 进行 映 晶 。 首 先 系统 软 DDR 0000-0000~ 1FFF-FFFF 


件 将 MSR 中 的 IS 和 DS 位 清 零 ， 
只 使 用 ES00 内核 的 地 址 空间 0, 同 
时 将 TLB1 Entry 中 的 TS 字段 清 
零 。 此 时 E500 内 核 的 有 效 地 址 将 
等 效 为 虚拟 地 址 。 之 后 使 用 E500 
内 核 中 的 TLB1 中 的 6 个 Entry 对 
这 些 人 存储器 空间 进行 映射 , 如 表 


RapidIO 256 4000-0000 一 4FFF-FFFF 
PCI 256 6000-0000 一 6FFF-FFFF 

其 他 外 设 32 A000-0000 一 AlFF-FFFF 

内 部 寄存 器 空间 1 E000-0000 一 EOOF-FFFF 
Flash 16 FF00-0000 一 FFFF-FFFF 


3-4 所 示 。 z 
表 3-4 使 用 TLB1 进行 虚实 地 址 转换 


采用 表 3-4 对 TLB1 进行 配置 ,可 以 将 E500 内 核 的 有 效 地 址 与 物理 地 址 一 一 对 应 ,此 时 
MPC8540 中 的 数据 和 地 址 的 有 效 地 址 与 物理 地 址 的 值 相等 。 值 得 注意 的 是 一 个 TLBI1 的 
Entry 最 多 只 能 映射 256 MB 的 地 址 空间 ,因此 至 少 要 使 用 两 个 Entry 才能 对 512 MB 的 DDR 
空间 进行 映射 。 由 于 TLB1 的 Entry 不 支持 32 MB 大 小 的 页 表 , 因 此 对 32 MB 的 其 他 外 设 空 
间 进 行 映 射 时 ,或 者 使 用 2 个 16 MB 大 小 的 Entry 或 者 使 用 一 个 64 MB 大 小 的 Entry 进行 映 
射 。 注 意 在 TLB1 中 进行 映射 的 虚拟 地 址 不 能 重生 

对 于 简单 的 处 理 器 系统 ,系统 设计 者 可 以 只 \ 使 用 TLB1 进行 空间 映射 ,只 采用 TLB1 进行 
虚拟 地 址 到 物理 地 址 的 转换 有 许多 优点 ,如 使 用 TLBI1 进行 虚实 地 址 转换 时 ,不 会 出 现 TLB 
Miss 的 情况 ,能够 在 一 定 程度 上 提高 系统 的 效率 。 但 是 对 于 较为 复杂 的 系统 仅 使 用 TLBI 无 
法 完成 所 有 虚拟 地 址 空间 的 映射 ,原因 如 下 : 

e TLBI1 最 多 只 能 对 4 GB 大 小 的 虚 存 空间 进行 映射 , 当 有 些 操作 系统 使 用 的 虚拟 地 址 空 

间 大 于 4 GB 时 ,就 不 能 够 只 使 用 TLBI1 进行 映射 。 
e TLB1 中 最 多 只 有 16 个 Entry。 但 是 在 某 些 复杂 的 应 用 中 ,内 存 空 间 的 种 类 可 能 大 于 
16 种 ,此 时 仅 使 用 TLBI1 不 能 满足 系统 的 要 求 。 

在 以 上 几 种 情况 下 ,系统 软件 必须 采用 其 他 方式 进行 虚拟 地 址 空间 到 物理 地 址 空间 的 转 

换 。 还 有 一 种 情况 ,需要 读者 考虑 ,如 果 你 使 用 的 系统 ,其 地 址 空间 能 够 完全 使 用 TLB1 进行 
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映射 ,那么 此 时 TLBIL 仅 提供 了 一 种 一 一 对 应 的 地 址 转换 方式 而 已 。 此 时 系统 MMU 的 地 址 
转换 功能 并 没有 起 到 太 大 的 作用 ,在 这 种 情况 下 实际 上 关闭 了 MMU 也 没有 什么 关系 。 只 是 
在 ES00 内 核 中 ,MMU 中 的 地 址 转换 单元 不 能 被 关闭 ,系统 软件 必须 对 TLB1 中 的 Entry 进 
行 配 置 。 


3.1.6 ES00 内 核 的 TLB0 


E500 内 核 中 ,TLB0 是 MMU 地 址 转换 单元 的 核心 。E500 内 核 的 TLB0 共 支 持 256 个 
ny 采用 2 路 组 相连 结构 ,所 支持 的 页 表 大 小 为 4 KB。 因 此 TLB0 所 能 直接 覆盖 的 物理 地 

空间 只 有 1 MB ,但 是 系统 软件 只 是 将 TLBO 作为 系统 页 表 的 缓冲 。 

采用 TLBO 进行 虚 存 管理 的 系统 需要 在 主 存储 器 中 建立 页 表 , 页 表 中 的 每 一 个 Entry 所 
能 管理 的 页 表 大 小 也 为 4 KB, 与 TLB0 支持 的 页 表 大 小 相等 。 

在 一 个 复杂 的 操作 系统 中 ,一 般 会 用 TLB0 实现 虚拟 地 址 到 物理 地 址 的 转换 。 如 Linux 
PowerPC 中 也 使 用 了 TLB0 进行 虚实 地 址 的 转换 。 在 Linux 系统 中 ,Linux 内 核 将 占用 1 GB 
空间 ,而 每 一 个 用 户 进 程 都 将 具有 3 GB 空间 ,此 时 对 用 户 进 程 地 址 空间 的 管理 必须 使 用 
TLBO 空间 。 

由 于 在 TLB0 中 能 直接 映射 的 地 址 空间 只 有 1 MB , 当 一 个 程序 使 用 的 地 址 不 在 这 1 MB 
空间 时 ,将 产生 TLB Miss 异常 。E500 内 核 中 一 共有 两 种 TLB Miss 异常 ,一 种 是 指令 TLB 
Miss 异常 ,一 种 是 数据 TLB Miss 异常 。 

E500 内 核 中 ,TLBO 中 直接 映射 的 地 址 空间 只 有 1 MB, 但 是 由 于 程序 执行 的 局 部 性 ,进程 
使 用 的 程序 空间 和 数据 空间 在 TLB0 中 命中 的 概率 非常 高 。 

E500 内 核 为 TLB0 设置 了 256 个 Entry。 但 是 用 户 不 必 因 为 TLB0 中 只 有 256 个 Entry， 
而 担心 使 用 TLB0 进行 虚实 地 址 的 转换 效率 。 因 为 E500 内 核 只 设置 256 个 Entry 是 建立 在 
许多 理论 和 实验 数据 基础 之 上 的 ,是 建立 在 认真 的 量化 分 析 的 基础 之 上 的 。 

虽然 使 用 TLB0 进行 虚实 地 址 转换 的 效率 较 高 ,但 是 在 进程 运行 中 还 是 会 产生 一 部 分 
TLB Miss 异常 。E500 内 核 为 提高 TLB Miss 异常 的 处 理 效 率 , 当 TLB Miss 异常 出 现时 ,会 自 
动 将 MAS0O 一 2 寄存 器 的 值 使 用 寄存 器 MAS4 中 的 值 蔡 换 (参见 本 章 3.1.3 节 ), 然 后 进入 
TLB Miss 异常 处 理 程序 。 

TLB Miss 异常 处 理 程序 将 对 存放 在 外 部 存储 器 中 的 页 表 进 行 检索 ,然后 查找 到 页 表 中 合 
适 的 Entry, 将 此 Entry 中 的 值 更 新 到 即将 被 替换 的 TLBO 的 Entry 中 。 在 E500 内 核 中 TLB0 
使 用 2 路 组 相 联 的 方式 进行 管理 ,因此 有 两 个 可 能 的 Entry 可 以 被 替换 。 在 E500 内 核 中 使 用 
LRU 算法 进行 TLBO 的 Entry 替换 ,如 图 3-3 所 示 。 





图 3-3 ”TLBO 的 Entry 替换 机 制 


E500 内 核 的 TLB0 中 包含 一 个 NV 位 。 该 位 用 来 实现 TLBO 的 Entry 替换 。 如 图 3-3 所 
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示 ,TLB0 进行 替换 时 将 当前 TLB0 中 的 NV 位 及 其 反 码 (NV) 分 别 写 人 MAS0 寄存 器 中 的 
ESEL 字段 和 NV 位 中 ,然后 将 MAS0 寄存 器 中 的 NV 位 赋值 到 TLB0 的 NV 位 中 。 因 为 
E500 内 核 的 TLB0 中 可 能 被 替换 的 Entry 只 有 两 个 ,因此 这 种 算法 也 等 效 于 LRU 算法 。 
E500 V2 内 核 进行 TLB0 的 替换 时 ,也 使 用 LRU 算法 ,但 是 其 蔡 换 流 程 远 比 图 3-3 所 示 的 算 
法 复杂 ,因为 E500 V2 内 核 使 用 4 路 组 相 联 对 TLB0 中 的 Entry 进行 管理 。 
在 进入 TLB Miss 异常 处 理 程 序 后 ,MAS1 一 3,MAS6 寄存 器 中 还 有 些 字段 将 被 自动 加 
载 ,如 下 所 示 : 
e MASI 寄存 器 中 的 V 位 将 置 1,IPROT 字段 将 清 零 ,TS 位 将 使 用 MSR 寄存 器 中 IS 或 
DS 的 值 ,如 果 是 指令 TLB miss 使 用 MSR 寄存 器 中 IS 位 的 值 ,否则 使 用 MSR 寄存 器 
中 的 DS 位 。 
e MAS2 寄存 器 中 的 EPN 将 使 用 引发 TLB miss 异常 的 有 效 地 址 的 EPN。 
e@ 将 MAS3 寄存 器 中 的 RPN,PERMIS, U0 一 U3 字段 清 零 。 
e MAS6 中 的 SPID0 字段 将 使 用 处 理 器 的 PIDO 寄存 器 的 值 ,SAS 位 使 用 MSR 寄存 器 中 
IS 或 DS 的 值 ,如 果 是 指令 TLB miss, 该 位 使 用 MSR 寄存 器 中 IS 位 的 值 ,否则 使 用 
MSR 寄存 器 中 的 DS 位 。 
由 于 E500 内 核 在 处 理 TLB miss 时 已 提前 将 MAS 寄存 器 中 的 许多 字段 准备 好 ,系统 软 
件 只 需要 从 系统 页 表 中 获得 RPN,PERMIS,U0 一 U3 字段 并 将 其 存放 在 MAS3 寄存 器 中 , 然 
后 使 用 tlbwe 指令 更 新 TLB0 的 相应 Entry, 即 可 以 完成 对 TLB0 中 相应 Entry 的 更 新 工作 。 
在 完成 对 相应 Entry 的 更 新 后 ,系统 程序 将 很 快 结束 TLB Miss 异常 处 理 函 数 。 在 异常 处 
理 程 序 完成 对 TLBO0 的 Entry 的 更 新 后 ,E500 内 核 将 从 该 Entry 中 获得 数据 或 程序 所 需 的 物 
理 地 址 。 
TLB0 为 系统 软件 管理 内 存 提供 了 一 种 灵活 的 方式 ,但 是 由 于 TLB0 miss 的 存在 ,系统 软 
件 有 时 必须 检索 存放 在 外 部 存储 器 的 页 表 才 能 获得 所 需 物理 地 址 。 因 此 在 某 种 程度 上 说 ,使 
用 TLB0 进行 地 址 映射 会 降低 系统 的 效率 。 但 是 系统 软件 的 设计 有 时 必须 在 灵活 性 和 效率 中 
进行 取舍 。 在 Linux 系统 中 需要 采用 TLB1 和 TLBO 相 结合 的 方法 进行 地 址 映射 。 
在 基于 E500 内 核 的 操作 系统 中 ,使 用 TLBI 进行 虚实 地 址 转换 是 必 不 可 少 的 ,比如 在 使 
用 TLBO 进行 虚实 地 址 映射 时 ,将 使 用 存放 在 外 部 存储 器 的 页 表 。 当 系统 软件 访问 此 页 表 时 ， 
这 个 页 表 必 须 使 用 TLBI 进行 虚实 地 址 转换 ,否则 将 可 能 出 现在 TLB Miss 异常 处 理 程序 中 访 
问 再 次 出 现 数据 TLB Miss 的 情况 ,从 而 导致 整个 系统 的 月 演 。 
在 Linux PowerPC 中 ,使 用 了 TLB1 和 TLB0 相 结 合 的 方法 实现 虚实 地 址 转换 。 


3.2 ”E500 内 核 的 Cache 的 组 成 


Cache 的 主要 作用 是 作为 外 部 存储 器 的 缓冲 ,用 以 减缓 存储 器 访问 的 瓶颈 问题 ,从 而 提高 
整个 处 理 器 的 使 用 效率 。 

高 速 缓冲 Cache 位 于 处 理 器 和 主 存储 器 之 间 , 它 的 容量 比 内 存 小 ,但 存 取 速度 高 ,其 内 容 
为 主 存储 器 的 部 分 拷贝 。 在 程序 运行 过 程 中 , 当 需 要 取 指 令 或 取 数 时 ,处 理 器 首先 检查 缓存 中 
是 否 有 此 内 容 , 奇 有 就 从 缓存 中 取出 ,车 没有 再 从 存储 器 取出 。 

在 处 理事 中 可 能 存在 一 级 \、 二 极 或 者 三 级 高 速 缓存 (L1,12 或 者 L3 Cache) ,个 别 系统 还 
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有 四 级 缓存 (L4 Cache) 。IBM 的 xSeries 服务 器 使 用 的 处 理 器 使 用 了 L4 Cache。 

L1 Cache 和 L2 Cache 是 一 个 处 理 器 重要 的 组 成 部 分 。 处 理 器 中 内 置 的 LI1 Cache 可 以 有 
效 提高 处 理 右 的 运行 效率 。L1 Cache 的 容量 和 结构 对 处 理 器 的 性 能 影响 较 大 。 

而 L2 Cache 的 作用 是 为 了 协调 处 理 器 运行 速度 与 内 存 存 取 速 度 之 间 的 差异 ,L2 Cache 对 
提高 处 理 器 的 运行 性 能 也 有 很 大 的 帮助 。L2 Cache 实际 上 是 处 理 器 和 主 存储 器 之 间 的 真正 
缓冲 。L2 Cache 的 大 小 一 般 为 128 KB,256 KB 或 512 KB。L2 Cache 的 大 小 对 于 处 理 器 运算 
性 能 并 没有 太 大 的 帮助 ,但 对 于 一 些 实际 应 用 程序 ,L2 Cache 容量 的 提高 可 以 直接 带 来 整体 
性 能 的 改变 。 

E500 内 核 中 仅 包 含 L1 Cache, 而 不 包含 L2 Cache。 目 前 基于 E500 内 核 的 处 理 器 ,如 
MPC8541,MPC8548 ,包含 L2 Cache。 但 是 这 些 L2 Cache 并 不 属于 E500 内 核 ,而 是 属于 处 
理 器 。 

在 现代 处 理 器 系统 中 对 Cache 采取 了 许多 不 同 的 处 理 方法 。 例 如 虚拟 Cache 技术 直接 使 
用 虚拟 地 址 进行 Cache 访问 ,然后 在 Cache 中 做 出 相应 的 虚实 地 址 的 转换 和 管理 工作 。 这 种 
技术 的 实现 较为 复杂 ,尤其 是 在 多 进程 进行 地 址 空间 切换 时 ,虚拟 Cache 的 同步 处 理 较为 复 
杂 ,不 利于 系统 总 线 和 处 理 器 频率 的 提高 ,因此 目前 绝 大 多 数 的 处 理 器 内 核 没 有 使 用 这 种 虚拟 
Cache 技术 。 

E500 内 核 也 没有 使 用 虚拟 Cache 技术 。 因 此 E500 内 核对 Cache 的 访问 所 使 用 的 地 址 为 
物理 地 址 ,相对 虚拟 Cache 技术 ,这 种 实现 要 简单 得 多 。 当 处 理 器 对 Cache 进行 访问 时 首先 要 
通过 MMU 管理 单元 获得 指令 或 数据 的 物理 地 址 ,然后 通过 LI1 Cache 以 及 处 理 器 内 核 的 整个 
存储 系统 对 最 终 数据 进行 访问 。 


3.2.1 LI Cache 的 结构 


E500 内 核 的 LI1 Cache 采用 哈佛 结构 将 指令 LI1 Cache 与 数据 Ll Cache 分 离 。 指 令 与 数 
据 Ll Cache 的 大 小 都 为 32 KB, 并 采用 8 路 组 相 联 结构 ,Cache 行 长 度 为 256 位 ,L1 Cache 的 
组 数 为 128。 对 于 一 个 采用 多 路 组 相 联 结构 的 Cache, Cache 的 大 小 、Cache 行 长 度 、 路 数 与 组 
数 之 间 的 关系 如 以 下 公式 所 示 : 

Cache 大 小 (32 KB) = Cache 行 长 度 (32B) x 路 数 (8 路 ) x 组 数 (128 组 ) 

E500 内 核 在 每 一 个 Cache 行 中 包含 一 个 地 址 标签 (Address Tag), 四 个 状态 位 和 32 B 的 
数据 ,如 图 3-4 所 示 为 数据 L1 Cache 的 组 织 结构 。 指 令 L1 Cache 的 组 织 结 构 与 数据 L1 Cache 
的 组 织 结构 类 似 。 | 

E500 内 核 的 Ll Cache 使 用 15 位 地 址 对 32 KB 大 小 的 数据 Ll Cache 空间 进行 编码 。 
E500 内 核 Ll1 Cache 使 用 8 路 组 相 联 结构 ,因此 使 用 3 位 表示 路 数 ,使 用 7 位 表示 组 数 。 由 于 
Cache 行 长 度 为 32 B, 所 以 还 要 使 用 5 位 对 Cache 行 中 的 数据 进行 选择 。 如 下 所 示 : 

第 0 一 2 位 第 3 一 9 位 第 10 一 14 位 
Way Number( 路 数 ) Set Number( 组 数 ) Cache Line 

如 宁 一 个 处 理 磊 使 用 4 路 或 2 路 组 相连 结构 ,而 且 Cache 的 大 小 依然 为 32 KB 时 ,Way 
Number 字段 降低 为 2 位 或 者 1 位 ,并 将 Set Number 字段 扩大 2 位 或 者 1 位 ;如 果 使 用 16 路 
或 32 路 组 相连 结构 时 需要 将 Way number 字段 扩大 为 4 位 或 5 位 ,并 将 相应 的 Set Number 字 
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图 3-4 ”E500 L1 Cache 结构 图 


段 降低 一 位 。 当 路 数 所 占 位 数 为 零 时 表示 Cache 使 用 直接 映射 的 方式 , 当 组 数 所 占 位 数 为 零 
时 表示 Cache 使 用 全 相 联 结构 。 
E500 内 核 的 32 位 地 址 与 Ll1 Cache 进行 映射 时 ,其 地 址 可 以 分 解 为 Tag Address、 Set 
Number、Word Select 和 Byte Select 四 个 字段 ,如 下 所 示 : 
第 0 一 19 位 第 20 一 26 位 第 27 一 29 位 第 30~31 位 
Address Tag Set Number Word Select Byte Select 
E500 内 核 的 32 位 有 效 地 址 中 Set Number 字段 占用 地 址 的 第 20 一 26 位 ,其 长 度 与 L1 
Cache 中 的 Set Number 个 数 相 同 ; Word Select 字段 占用 地 址 的 第 27 一 29 位 ,用 来 选择 在 同一 
个 Cache 行 中 的 8 个 Word;Byte Select 字段 占用 地 址 的 第 30 一 31 位 ,用 来 选择 在 一 个 Word 
中 的 某 个 字 节 ;Address Tag 字段 占用 地 址 的 第 0 一 19 位 ,该 字段 用 来 与 L1 Cache 中 的 Addr 
Tag 进行 比较 ,其 长 度 与 Cache 中 的 Addr Tag 长 度 相同 。 
E500 内 核 的 Ll1 Cache 行 长 度 为 32B, 组 数 为 128 ,路 数 为 8。 因此 处 理 器 对 LI1 Cache 进 
行 查询 时 首先 使 用 地 址 的 20 一 26 位 在 LI1 Cache 的 128 个 组 中 进行 组 选择 ,然后 将 地 址 中 存 
放 的 Address Tag 与 在 同 组 的 8 路 Cache 行 中 的 Addr Tag 同时 进行 比较 ,如 果 其 中 有 一 路 命 
中 则 根据 地 址 的 第 27 一 31 位 在 Cache 行 中 选择 需要 的 Word, 如果 不 命中 则 表示 L1 Cache 没 
有 缓存 所 需 数据 ,处 理 器 将 对 L2 Cache 和 内 存 依次 进行 访问 以 获得 所 需要 的 数据 。 
由 此 可 见 , 如 果 系 统 的 Cache 使 用 16 路 ,32 路 或 者 更 多 的 路 数 ,存放 在 32 位 地 址 中 的 
Address Tag 需要 与 16 路 或 者 32 路 Cache 行 中 的 Addr Tag 进行 比较 ,此 时 进行 Cache 设计 ， 
将 需要 更 多 的 CAM 存储 器 进行 这 种 地 址 比较 。 


3.2.2 LI1 Cache 的 替换 算法 


E500 内 核 中 LI1 Cache 的 大 小 远 小 于 系统 中 内 存 的 大 小 ,因此 E500 内 核 将 不 可 避免 地 需 
要 对 LI1 Cache 中 的 Cache 行进 行 替换 。 常 用 的 Cache 替换 算法 有 LRU 和 PLRU。 
LRU(Least Recently Used) 算 法 的 原理 较为 简单 , 即 淘 汰 最 近 没 有 使 用 的 数据 ,对 于 采用 
8 路 组 相 联 的 L1 Cache, 采 用 这 种 算法 将 淘汰 8 路 中 的 最 近 没 有 使 用 的 1 路 Cache 行 。 但 是 在 
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E500 内 核 中 没有 采用 LRU 算法 而 是 采用 PLRU(Pseudo LRU) 算 法 。 在 绝 大 多 数 的 处 理 器 
中 都 使 用 PLRU 算法 而 不 是 LRU 算法 实现 Cache 的 替换 。 
E500 内 核 使 用 PLRU 算法 对 8 路 组 相 联 结构 的 Ll1 Cache 进行 替换 ,为 此 E500 内 核 在 
L1 Cache 中 设置 了 B[0 一 6 字段 与 8 路 Cache 进行 对 应 ,如 表 3-5 所 示 。 
表 3-5 ”PLRU 算法 中 被 淘汰 的 路 与 BL0~6] 之 间 的 关系 
PLRU 字段 . 淘汰 的 路 


使 用 PLRU 算法 进行 Cache 替换 需要 遵循 以 下 原则 : 

e@ 在 系统 初始 化 结束 后 ,B0 一 6 位 都 为 0。L1 Cache 中 所 有 Cache 行 的 状态 为 Invalid。 

e@ 使 用 PLRU 算法 时 ,优先 使 用 状态 为 Invalid 的 Cache 行 ,E500 内 核 将 按照 0 一 7 的 顺序 
依次 替换 状态 为 Invalid 的 Cache 行 。 在 E500 内 核 复 位 后 ,首先 选择 控制 逻辑 选择 LO 
进行 Cache 行 替换 。 

e@ 如 果 所 有 的 路 中 Cache 行 的 状态 为 Valid, Cache 控制 逻辑 采用 PLRU 算法 对 Cache 行 
进行 替换 。 

e ed PLRU 算法 选 定 的 Cache 行 的 状态 为 Locked 时 ,控制 逻辑 不 能 替换 此 Cache 

村, 而 是 选择 同 组 的 其 他 路 Cache 行进 行 替换 。 如 果 同 组 的 8 路 Cache 行 的 状态 都 为 
1 ed 此 时 将 局 动 外 部 总 线 周 期 从 外 部 存储 器 中 获得 相应 的 数据 。 

PLRU 算法 与 LRU 算法 相 比 较为 复杂 。 在 初始 化 时 ,BO 与 B6 位 都 为 0。 由 上 表 所 示 ， 
此 时 B0,Bl 和 B3 为 E500 内 核 将 淘汰 L0, 同 时 将 BO,Bl 和 B3 位 取 反 ,即将 B0,Bl 和 B3 位 取 
反 ; 此 时 B0 为 1,B2 为 0,B5 为 0, 此 时 E500 内 核 将 淘汰 L4 ,然后 再 将 第 BO,B2 和 BS 位 取 反 ， 
并 依 此 类 推 ,形成 一 个 状态 机 ,然后 对 Cache 中 的 8 路 进行 替换 。 

值得 注意 的 是 ,采用 PLRU 算法 对 32 KB 的 数据 Cache 进行 刷新 时 ,需要 使 用 dcbf 指令 
对 48KB 而 不 是 32KB 的 连续 数据 区 域 进 行 操作 。 表 3-6 中 简单 列 出 使 用 PLRU 算法 对 一 个 
地 址 连续 空间 进行 操作 时 ,B0 位 到 B6 位 的 状态 转化 以 及 如 何 进行 Cache 替换 。 


表 3-6 B0~B6 的 状态 转化 表 
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对 此 有 兴趣 的 读者 可 以 将 B0 位 到 B6 位 在 进行 Cache 淘汰 时 的 状态 变换 继续 列 下 去 。 如 
果 有 可 能 ,可 以 写 一 个 程序 将 这 一 序列 穷 举 出 来 。 

从 这 一 序列 中 我 们 可 以 发 现 ,采用 PLRU 算法 进行 Cache 淘汰 时 ,将 L0 一 L7 路 淘汰 完 
毕 ,仅仅 对 8 个 Cache 行 进行 操作 是 不 够 的 。 如 表 3-6 所 示 ,我们 在 其 中 任意 挑选 8 个 状态 
时 ,可 以 发 现在 8 个 状态 中 有 重复 的 状态 。 在 最 糟糕 的 情况 下 ,连续 12 个 状态 才能 够 包含 LO 
一 L7 所 有 的 状态 。 

因此 ,至 少 需 要 对 12 个 Cache 行进 行 操作 才能 完成 对 8 路 Cache 行 的 替换 。 因此 使 用 
PLRU 算法 需要 对 48KB 地 址 连续 的 空间 进行 操作 才能 完成 对 32 KB 大 小 的 Cache 进行 刷 
新 。 和 希望 读者 对 此 能 够 认真 理会 。 实 际 上 从 数学 上 可 以 证 明 这 一 结论 ,对 此 有 兴趣 的 读者 ,可 
以 对 16 路 、32 路 或 者 更 多 路 组 相 联 的 Cache 证 明 使 用 PLUR 算法 需要 对 多 大 的 地 址 连续 空 
间 进 行 访问 ,以 完成 Cache 的 刷新 。 

许多 人 处理 器 在 对 8 路 及 以 上 的 Cache 进行 刷新 时 ,都 采用 了 PLRU 而 不 是 LRU 算法。 其 
原因 主要 是 PLRU 算法 虽然 相对 较为 复杂 ,但 是 对 于 IC 工程 师 PLRU 算法 的 实现 效率 远 高 
于 LRU 算法 。 

使 用 LRU 算法 时 ,不 可 避免 地 需要 对 8 路 Cache 都 进行 比较 以 选择 出 最 近 没 有 使 用 的 
Cache 行 。 这 种 比较 算法 将 带 来 较 大 的 处 理 延 时 ,这 种 延 时 对 于 机 器 周期 只 有 lns 或 者 几 百 
ps 的 处 理 夯 而 言 ,是 非常 大 的 。 为 此 绝 大 多 数 处 理 器 都 使 用 了 PLRU 算法 进行 多 路 组 相 联结 
构 的 Cache 行 替 换 。 

事实 上 ,有 过 处 理 器 内 核 设计 经 验 的 读者 一 定 了 解 ,在 处 理 器 内 核 设 计 中 处 处 都 会 遇 到 瓶 
贷 , 处 理 融 的 频率 提高 也 会 带 来 许多 问题 。 处 理 器 采用 的 一 些 看 起 来 并 不 算 完 善 的 算法 ,实际 
上 是 不 得 已 而 为 之 。 


3.2.3 Ll Cache 的 状态 位 与 LI1 Cache 的 一 致 性 


E500 内 核 使 用 MESI 协议 对 数据 LI1 Cache 进行 管理 ,MESI 协议 可 以 处 理 单 处 理 器 内 核 

的 L1 Cache,L2 Cache 和 主 存储 器 间 的 一 致 性 ,也 可 以 处 理 多 处 理 器 内 核 间 的 Cache 共享 一 致 

性 。 目 前 基于 使 用 总 线 监听 法 的 MESI 协议 是 处 理 Cache 一 致 性 最 流行 的 协议 。MESI 协议 

规定 每 个 数据 Cache 行 中 都 包含 MESI 四 个 状态 位 。 此 外 ,E500 内 核 在 L1 数据 Cache 中 还 
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支持 一 个 Lock 位 。 在 单 处 理 器 的 体系 结构 下 MESI 的 定义 如 下 所 示 : 

(1) M(Modified) 。M 位 为 1 时 表示 当前 Cache 行 中 包含 的 数据 不 在 本 处 理 器 内 核 的 内 
存 体系 中 ,此 时 Cache 行 中 所 含 的 数据 无 效 。 当 处 理 器 对 此 Cache 行进 行 操 作 时 ,必然 会 导致 
Cache 失效 ,从 而 引发 系统 总 线 的 读 写 周期 ,将 Cache 行 中 数据 与 内 存 中 的 数据 同步 。 

(2) E(Exclusive)。 正 位 为 1 时 表示 当前 Cache 行 中 包含 的 数据 仅 在 本 处 理 器 内 核 的 内 存 
体系 中 。 在 单 处理 器 系统 中 ,如果 Cache 行 命 中 时 ,此 Cache 行 的 状态 为 Exclusive。 

(3) S(Shared) 。 在 单 处 理 器 结构 中 ,Cache 行 中 的 状态 不 可 能 为 Shared。 在 多 处 理 帮 系 
统 中 ,Cache 行 的 状态 可 能 为 Shared。 

(4) I(Invalid) 。 该 位 用 来 表示 当前 Cache 行 是 否 有 效 , 在 E500 内 核 使 用 PLRU 算法 对 
Cache 行进 行 蔡 换 时 ,将 首先 替换 状态 为 Invalid 的 Cache 行 。 

在 指令 Ll Cache 中 只 有 此 位 有 效 ,在 计算 机 体系 结构 中 指令 Cache 的 处 理 较 为 简单 , 指 
令 Cache 不 存在 一 致 性 的 问题 ,因为 在 现代 计算 机 体系 结构 中 ,程序 的 正文 段 一 般 不 被 修改 。 
如 果 用 户 由 于 某 种 特殊 需要 对 程序 的 指令 段 进 行 修改 时 ,需要 编写 Cache 同步 的 指令 ,维护 程 
序 地 址 空间 与 指令 Ll Cache 之 间 的 同步 。 这 种 对 程序 正文 段 进行 修改 的 程序 ,也 被 称 为 self- 
modifying 程序 。 

(5) Locked。 该 位 表示 当前 Cache 行 是 否 被 加 锁 。 被 加 锁 的 Cache 行 不 能 被 蔡 换 。 有 的 
程序 将 某 些 经 常 使 用 的 程序 或 者 数据 在 Cache 中 锁定 以 提高 程序 的 效率 。 

但 是 将 Cache 锁定 的 做 法 并 不 一 定 能 提高 程序 的 整体 效率 。 程 序 员 可 以 根据 具体 情况 对 
这 些 现象 进行 分 析 。 除 非 万 不 得 已 ,不 赞成 程序 员 将 常用 的 数据 或 者 程序 锁定 到 LI1 Cache 
中 ,因为 这 种 做 法 将 极 大 地 影响 程序 的 可 移植 性 。 

单 处 理 器 系统 在 进行 Cache 共享 一 致 时 ,只 使 用 了 MESI 协议 的 子 集 。 此 时 Cache 的 共 
享 一 致 协议 比较 容易 实现 。 

1. 基于 单 处 理 器 Cache 的 存储 器 读 操作 

E500 内 核 在 进行 存储 器 读 操作 时 ,首先 检查 当前 访问 的 数据 是 否 在 L1 Cache 中 命中 。 

如 果 访 问 的 数据 在 Ll Cache 中 命中 , 则 进一步 检查 L1 Cache 行 的 状态 。 如 果 Cache 行 中 
的 数据 有 效 , 即 Exclusive 位 为 1, 则 将 从 L1 Cache 中 获得 相应 的 数据 ;如 果 Cache 行 中 的 数据 
无 效 , 即 Modified 位 为 1, 则 以 Cache 行 为 单位 对 本 处 理 器 的 内 存 系 统 进行 读 操 作 获 得 相应 的 
数据 ,同时 更 新 此 Cache 行 中 的 数据 并 将 Cache 行 状态 的 Exclusice 位 更 改 为 1, 表示 当前 
Cache 行 中 的 数据 有 效 。 

如 果 访 问 的 数据 没有 在 Ll Cache 中 命中 , 则 使 用 PLRU 算法 计算 出 需要 淘汰 哪 一 个 
Cache 行 ,然后 根据 Cache 行 的 状态 决定 如 何 淘汰 该 Cache 行 。 如 果 该 Cache 行 状态 的 
Exclusive 位 为 1, 则 直接 将 淘汰 此 Cache 行 中 的 数据 ,不 需要 与 存储 器 系统 进行 同步 ;如 果 该 
Cache 行 状态 的 Modified 位 为 1, 则 需要 将 在 Cache 行 中 的 数据 与 存储 器 同步 。 之 后 将 局 动 存 
储 器 读 周期 ,将 数据 从 L2 Cache 或 者 内 存 中 读 入 到 该 Cache 行 中 ,同时 将 此 Cache 行 状态 的 
Exclusive 位 更 改 为 1。 

2. 基于 单 处 理 器 Cache 的 存储 器 写 操 作 

E500 内 核 在 进行 存储 器 写 操作 时 ,可 以 使 用 两 种 策略 , 回 写 (Write-Back ) 或 者 通 与 
(Write-Through) ,对 Ll1 Cache 进行 更 新 。 下 文 将 分 别 介绍 采用 回 与 和 通 写 两 种 情况 进行 存储 
器 写 操 作 时 ,LIL Cache 行 状态 的 转换 。 
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(1) 使 用 回 写 策略 。 此 时 E500 内 核 在 进行 存储 器 写 操作 时 ,首先 检查 当前 访问 的 数据 是 
人 盏 在 LI Cache 中 命中 。 如 果 数 据 在 LI Cache 中 命中 , 则 将 数据 写 人 LI Cache 中 ,此 时 不 改变 
L1 Cache 行 的 状态 。 

如 果 数 据 没 有 在 Ll1 Cache 命中 , 则 使 用 PLRU 算法 计算 出 需要 淘汰 哪 一 个 Cache 行 , 然 
后 根据 Cache 行 的 状态 决定 如 何 淘汰 该 Cache 行 。 淘 汰 Cache 行 的 方法 与 3.2.3 节 的 淘汰 方 
法 相同 。 将 Cache 行 的 数据 淘汰 后 ,将 新 的 数据 写 人 此 Cache 行 。 此 时 Cache 行 的 状态 为 
Modified。 

(2) 使 用 通 写 策略 。 此 时 E500 内 核 在 进行 存储 器 写 操作 时 ,首先 检查 当前 访问 的 数据 是 
否 在 LI Cache 中 命中 。 如 果 数 据 在 LI Cache 中 命中 , 则 将 数据 写 人 L1 Cache 中 ,同时 将 此 数 
据 写 和 人 到 内 存 体系 中 ,并 将 该 Ll1 Cache 行 状态 的 Exclusice 位 置 为 1。 

如 果 数 据 没有 在 L1 Cache 中 命中 , 则 使 用 PLRU 算法 计算 出 需要 淘汰 哪 一 个 Cache 行 ， 
然后 根据 Cache 行 的 状态 决定 如 何 淘汰 该 Cache 行 。 淘 汰 Cache 行 的 方法 与 3.2.3 节 的 淘汰 
方法 相同 。 将 Cache 行 的 数据 淘汰 后 ,将 新 的 数据 写 入 此 Cache 行 ， 同时 将 数据 写 和 内存 体系 
中 ,并 将 该 L1 Cache 行 状态 的 Exclusice 位 置 为 1。 

如 果 在 一 个 处 理 器 系统 中 ,只 使 用 通 写 策 略 进行 Ll Cache 的 更 新 ,Cache 行 的 状态 不 可 能 
为 Modified。 如 果 在 一 个 系统 中 同时 采用 了 通 写 和 回 写 两 种 策略 ,并 将 两 个 分 别 采 用 回 写 策 
略 和 通 写 策略 的 虚拟 地 址 映射 到 同一 个 物理 地 址 时 ,Cache 行 的 状态 就 有 可 能 为 Modified。 

使 用 通 写 方式 时 ,E500 内 核对 系统 总 线 的 访问 频率 较 高 ,从 而 会 在 一 定 程 度 上 加 大 系统 
总 线 的 负担 。 因 此 在 多 数 应 用 中 ,使 用 回 写 策略 管理 L1 Cache。 但 是 共享 数据 的 管理 一 般 要 
使 用 通 写 策略 ,以 避免 Cache 的 颠 艇 。 


3.2.4 与 L1 Cache 管理 有 关 的 寄存 器 


E500 内 核 设 置 了 一 些 寄存 器 管理 Ll Cache。 这 些 寄 存 器 包括 LICSR0, LICFG0， 
LICSR1 和 LICFGI1 寄存 器 。 这 些 寄存 器 的 主要 作用 是 对 L1 Cache 进行 管理 和 配置 。 
LICSR0(L1 Cache Control and Status Register 0) 寄 存 器 。 该 寄存 器 用 来 对 数据 L1 Cache 
e CPE 位 。 该 位 为 1 时 ,使 能 数据 L1 Cache 的 奇偶 校 验 检查 ,此 时 如 果 发 生 了 Cache 的 
奇偶 校 验 错误 ,E500 内 核 将 产生 Machine Check 异常 。 
e CPI 位 。 该 位 置 1 时 ,将 翻转 当前 数据 LI1 Cache 的 奇偶 位 ,从 而 将 引发 Machine Check 
异常 。 设 置 该 位 的 主要 目的 是 用 来 调试 系统 的 异常 处 理 软件 。 只 有 当 CPE 位 为 1 时， 
CPI 位 才能 被 置 为 1。 
e CSLC,CUL,CLO 和 CLFR 位 被 称 为 Line Locking APU 位 。 该 四 位 用 来 反映 使 用 指令 
dcbi 是 否 能 对 Cache 行 解除 锁定 。 
e CFI 位。 对 此 位 写 1 将 使 无 效 数据 L1 Cache, 当 E500 内 核 使 无 效 Cache 操作 完成 后 将 
此 位 目 动 清 零 。 
e CE 位 。 此 位 将 使 能 或 者 关闭 数据 L1 Cache。 
LI1CFGO(L1 Cache Configuration Register 0 ) 寄 存 器 。 该 寄存 器 用 来 记录 数据 L1 Cache 中 
的 配置 信息 ,该 寄存 器 只 读 。 
e CARCH 字段 。 该 字段 为 00 表示 当前 Cache 使 用 Harvard 结构 。 
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e CBSIZE 字段 。 该 字段 为 00 表示 Cache 行 长 度 为 32 B,256b; 为 01 表示 Cache 行 长 度 
为 64 B,512b。 
e CREPL 字段 。 该 位 为 00 表示 Cache 的 替换 算法 为 LRU, 为 01 表示 Cache 的 替换 算法 
为 PLRU。 
@ CLA 位 。 该 位 为 0 表示 Line Locking APU 位 在 系统 中 无 效 , 为 1 表示 Line Locking 
APU 位 在 系统 中 有 效 。 
@ CPA 位 。 该 位 为 0 表示 Cache 中 没有 奇偶 校 验 功能 ,为 1 表示 Cache 中 具有 奇偶 校 验 
功能 。 
e CNWAY 字段 。 该 字段 为 111 时 ,Cache 采用 8 路 组 相 联 结构 。 
@ CSIZE 字段 。 该 字段 用 来 表示 Cache 的 大 小 ,该 字段 为 0x20 表示 当前 Cache 的 大 小 为 
32 KB。 
E500 内 核 中 还 有 LICSR1 和 L1CFG1 寄存 器 ,与 L1CSR0 和 LICFG1 寄存 器 中 不 同 , 这 
组 寄存 器 的 主要 作用 是 对 指令 Ll Cache 进行 操作 。 这 两 个 寄存 器 中 的 字段 与 LICSR0 和 
L1CFG1 寄存 苍 中 的 字段 相似 。 


3.2.5 与 Ll Cache 管理 有 关 的 指令 


E500 内 核 中 设置 了 许多 指令 对 Cache 进行 操作 。 

@ dcba 指令 。 该 指令 的 格式 为 “dcba rA, rB”。 此 指令 为 有 效 地 址 EA 分 配 一 个 Cache 行 ， 
然后 此 Cache 行 清 零 。 如 果 此 Cache 行 状态 为 Modified, 则 需要 将 此 Cache 行 回 写 到 内 
存 , 然 后 再 将 此 Cache 行 清 零 。 

e@ dcbf 指令 。 该 指令 的 格式 为 “dcbf rA, rB”。 此 指令 将 有 效 地 址 EA 所 在 的 Cache 行 刷 
新 , 当 此 EA 没有 在 数据 L1 Cache 中 命中 时 ,此 指令 直接 返回 不 做 任何 操作 。 当 在 数据 
L1 Cache 中 命中 , 则 根据 命中 的 Cache 行 状态 进行 相应 操作 。 如 果 该 Cache 行 的 状态 
为 Modified, 则 将 Cache 行 中 的 数据 写 人 内 存 , 然 后 将 状态 置 为 Invalid; 如 果 为 其 他 状 
态 , 则 直接 将 此 Cache 行 状态 置 为 Invalid。 

@ dcbi 指令 。 该 指令 的 格式 为 “dcbi rA, rB”。 此 指令 将 有 效 地 址 EA 所 在 的 Cache 行 置 
无 效 。 与 dcbf 指令 不 同 ,dcbi 直接 将 命中 的 Cache 行 的 状态 置 为 Invalid, 而 不 将 状态 为 
Modified 的 Cache 行 回 写 到 内 存 。 此 指令 要 求 处理 器 必须 在 超级 用 户 模式 才 WA 

@ dcbz 指令 。 该 指令 的 格式 为 “dcbz rA,rB”。 此 指令 与 dcba 指令 类 似 。 只 是 此 指令 
对 Cache 的 状态 进行 检查 。 当 Cache 行 不 使 能 ,Cache 行 被 锁 时 或 者 Cache 处 于 其 他 不 
能 被 改写 的 状态 ,执行 “dcbz 指令 会 引起 alignment 的 中 断 。 

@ dcbst 指令 。 该 指令 的 格式 为 “dcbst rA，rB”。 此 指令 将 有 效 地 址 EA 所 在 的 Cache 行 
与 内 存 同步 。 当 此 EA 没有 在 数据 LI1 Cache 中 命中 时 ,此 指令 直接 返回 ,不 做 任何 操 
作 。 当 在 数据 L1 Cache 中 命中 , 则 根据 命中 的 Cache 行 状态 进行 相应 操作 。 如 果 该 
Cache 行 的 状态 为 Modified, 则 将 Cache 行 中 的 数据 写 入 内 存 , 然后 将 状态 置 为 
Exclusive; 如 果 为 其 他 状态 ,该 指令 不 做 任何 操作 。 

e dcbt: 指 令 格 式 为 "dcbt CT, rA, rB”。CT 字段 为 0 表示 是 对 数据 L1 Cache 操作 ,为 1 
表示 对 数据 L2 Cache 进行 操作 。 此 指令 将 地 址 EA 中 的 数据 预 取 到 相应 的 数据 Cache 
行 中 。 | 
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@ dcbtst :指令 格式 为 "dcbtst CT, rA, rB”。CT 字 段 的 含义 同上 。dcbtst 指令 与 dcbt 指令 
类 似 ,也 是 将 内 存 的 数据 填充 到 指定 的 Cache 行 中 。 如 果 dcbtst 指令 所 要 访问 的 数据 
在 数据 LI1 Cache 中 ,此 指令 基本 不 用 做 任何 操作 ;如 果 dcbtst 指令 所 要 访问 的 数据 在 
数据 L2 cache 中 命中 而 在 数据 L1 Cache 中 失效 , 则 此 指令 将 在 L2 中 的 数据 调 人 数据 
LI1 Cache 中 ;如 有 果 dcbtst 指令 所 要 访问 的 数据 在 数据 LI 和 L2 cache 中 均 不 命中 , 则 此 
指令 将 在 内 存 中 的 数据 调 人 数据 L1,L2 Cache 中 。 

e@ dcblc 指令 。 该 指令 的 格式 为 “dcblc CT, rA, rB”。CT 字段 的 含义 同上 。 此 指令 将 有 效 
地 址 EA 所 在 的 Cache 行 的 Locked 位 清除 。 

@ dcbtls 指令 。 该 指令 的 格式 为 “dcbtls CT, rA, rB”。CT 字段 的 含义 同上 。 此 指令 将 有 
效 地 址 EA 中 存放 的 数据 加 载 到 相应 的 Cache 行 中 ,并 将 Locked 位 置 1。 

e@ icbi 指令 。 该 指令 的 格式 为 “icbi rA, rB”。 此 指令 将 有 效 地 址 EA 所 在 的 Cache 行 置 无 
效 。 该 指令 用 来 操作 指令 Cache。 

e@ icbt 指令 。 该 指令 的 格式 为 “icbt CT, rA, rB”。CT 字段 的 含义 同上 。 此 指令 将 有 效 地 
址 EA 所 在 的 Cache 行进 行 填充 ,将 在 内 存 中 数据 填充 到 指定 的 Cache 行 中 。 该 指令 用 
来 操作 指令 Cache。 

@ icblc 指令 。 该 指令 的 格式 为 “icblc CT, rA, rB”。CT 字段 的 含义 同上 。 此 指令 将 有 效 
地 址 EA 所 在 的 Cache 行 Locked 位 清除 。 该 指令 用 来 操作 指令 Cache。 

e@ icbtls 指令 。 该 指令 的 格式 为 “icbtls CT, rA, rB”。CT 字段 的 含义 同上 。 此 指令 将 有 
效 地 址 EA 中 存放 的 数据 加 载 到 相应 的 Cache 行 中 ,并 将 Locked 位 置 1。 该 指令 用 来 
操作 指令 Cache。 

上 文 仅仅 简单 解释 了 对 Cache 进行 操作 的 指令 ,这 些 解释 实际 上 只 是 针对 单 处 理 器 内 核 。 

对 于 多 处 理 怖 内 核 而 言 ,这 些 指令 的 实现 远 比 以 上 内 容 复 杂 得 多 。 


3.3 E500 内核 的 存储 器 一 致 与 同步 


PowerPC 处 理 器 使 用 弱 序 (Weakly order) 对 存储 器 进行 访问 。 所 谓 弱 序 是 一 种 暂时 打破 
正常 的 存储 访问 一 致 性 以 提高 整体 系统 性 能 的 一 种 方法 。 

弱 序 与 CPU 的 乱 序 执行 (out of order)、 条 件 转 移 指 令 的 预测 及 指令 流水 线 调度 紧密 相 
连 。 现 代 CPU 中 多 采用 流水 线 多 发 射 技术 , 即 CPU 可 以 同时 执行 多 条 指令 ,包括 运算 .访问 
存储 髓 指令 等 。 在 PowerPC 处 理 器 中 ,流水 线 的 多 发 射 ,CPU 的 乱 序 执行 与 条 件 语句 的 动态 
顶 测 使 得 弱 序 存储 器 访问 成 为 可 能 。 

弱 序 存储 器 访问 是 指 在 乱 序 的 指令 执行 中 提前 执行 存储 器 访问 的 指令 以 缓解 存储 器 的 瓶 
须 问题 的 一 种 存储 器 访问 方式 。 弱 序 存储 器 访问 的 实现 进一步 提高 了 对 存储 器 带宽 和 流水 线 
的 有 效 利用 ,同时 也 带 来 了 一 些 有 关 存 储 器 一 致 性 的 问题 。 

在 弱 序 访问 机 制 下 ,如 何 恢复 无 效 的 存储 器 操作 , 如何 对 某 些 存储 操作 进行 保护 ,需要 流 
水 线 控制 部 件 和 操作 系统 协同 完成 。 

系统 程序 员 在 书写 驱动 程序 或 BSP 的 代码 时 ,必须 考虑 因为 弱 序 存储 器 访问 而 带 来 的 同 
步 问题 。PowerPC 处 理 器 在 MMU 中 提供 了 一 些 寄存 器 位 和 同步 指令 支持 弱 序 存储 器 访问 。 
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3.3.1 罚 序 存储 结构 的 存储 器 分 类 


目前 ,学 术 界 已 对 存储 器 的 各 种 分 类 进行 了 比较 透彻 的 分 类 ,但 从 某 些 程序 员 的 角度 看 ， 
这 些 分 类 并 不 完全 适用 ,起 码 现 有 的 存储 器 分 类 和 他 们 编程 的 难度 并 没有 太 多 关系 。 . 

弱 序 存储 访问 要 求 程序 员 必 须 对 不 同 种 类 的 存储 器 选择 不 同 的 处 理 。 对 于 一 些 编写 设备 
驱动 程序 的 工程 师 , 必 须 注意 PowerPC 处 理 器 的 弱 序 存储 器 访问 。 本 书 根据 PowerPC 处 理 器 
的 弱 序 存储 器 机 制 对 存储 器 重新 进行 分 类 ,如 下 所 示 : 

(1) 静态 存储 器 。 静 态 存储 器 包括 SRAM,SSRAM 等 等 。 对 此 类 存储 器 ,程序 员 只 需 简 
单 地 配置 处 理 器 内 的 一 些 寄存 器 ,就 可 以 由 CPU 对 此 类 存储 器 自动 进行 访问 。 这 类 存储 器 经 
常 被 用 作 处 理 器 系统 的 片 外 Cache。 目 前 在 一 些 应 用 上 ,使 用 此 类 存储 器 的 机 会 越 来 越 少 。 
越 来 越 多 的 处 理 器 内 部 包含 了 大 容量 的 L2 Cache, 这 些 L2 Cache 直接 使 用 快速 的 系统 总 线 时 
钟 与 L1 Cache 进行 通信 ,其 效率 远 比 外 部 的 'Cache 高 。 一 些 简 单 的 处 理 器 ,如 8716 位 单 片 
机 ,还 在 继续 使 用 此 类 存储 器 作为 主 存储 器 ,用 来 保存 程序 及 程序 所 使 用 的 数据 。 

(2) 主 存储 器 。 主 存储 器 包括 SDRAM,DDR SDRAM 等 。 所 有 的 处 理 器 都 会 重点 考虑 
与 主人 存储 器 的 通信 效率 与 带宽 。 为 此 ,各 类 存储 访问 技术 层出不穷 ,时 钟 频率 越 来 越 高 ,对 硬 
件 设计 的 要 求 越 来 越 严 格 。 

不 夸张 地 说 ,现在 的 硬件 工程 师 在 设计 高 端 应 用 时 考虑 最 多 的 问题 就 是 信号 完整 性 ,从 投 
板 到 调试 阶段 ,始终 在 担心 因为 DDR 的 时 序 带 来 的 严重 结果 。 因 此 在 设计 阶段 ,硬件 工程 师 
基本 上 都 对 DDR 时 序 进行 仿真 模拟 ,遵循 着 各 类 由 主流 半导体 公司 提供 的 设计 规范 。 

软件 工程 师 配 置 PowerPC 处 理 器 的 主 存储 器 较为 容易 。PQIII 处 理 器 包含 DDR 控制 器 ， 
并 提供 了 几 个 寄存 器 供 程序 员 使 用 ,对 这 些 寄存 器 的 配置 需要 软件 工程 师 了 解 一 些 DDR 的 知 
识 , 有 些 寄存 器 的 配置 对 于 系统 效率 有 较 大 影响 。 主 存储 器 可 以 支持 随机 访问 ,存储 空间 连 
续 , 与 Cache 结合 紧密 ,访问 速度 快 。PowerPC 处 理 器 支持 的 弱 序 访问 也 主要 针对 此 类 存 
储 器 。 

(3) Flash 类 存储 器 。Flash 类 存储 器 包括 NOR-Flash、NAND-FLASH.CF 卡 等 。 对 存储 
容量 有 和 较 大 需求 的 应 用 ,经 常 使 用 NAND-FLASH 与 CF 卡 进 行 数据 储存 。 

NAND-FLASH 设备 的 访问 速度 较 慢 ,出 现 数据 坏 块 时 无 法 修复 ,不 过 这 一 类 Flash 的 容 
量 可 以 很 大 ,因此 在 移动 存储 、 数 码 相 机 、U 盘 等 一 些 对 容量 需求 较 大 的 应 用 中 得 到 了 广泛 的 
普及 。 

对 于 软件 工程 师 ,实现 对 此 类 存储 器 的 支持 不 过 是 移植 相应 的 驱动 程序 而 已 。 需 要 注意 
的 是 许多 设备 商 提供 的 驱动 程序 并 没有 考虑 PowerPC 处 理 器 的 弱 序 。 因 此 程序 员 在 移植 此 
类 驱动 程序 时 要 注意 有 关 存 储 一 致 性 的 问题 。 

NOR-Flash 是 工程 师 们 最 常用 的 Flash 类 型 ,这 类 Flash 用 来 存放 Boot Loader 程序 和 操 
作 系 统 映像 。 对 于 程序 员 ,此 类 Flash 的 特点 是 进行 写 操作 前 必须 进行 擦 除 操作 。 此 类 Flash 
需要 进行 一 系列 命令 字 操 作 后 才能 进行 擦 除 或 写 操作 ,具体 的 命令 字 结 构 请 参考 相应 Flash 
的 数据 手册 。 无 论 是 NOR-Flash 还 是 NAND -Flash 都 有 一 个 共同 的 特点 ,就 是 在 进行 数据 写 
和 擦 除 时 ,需要 完成 一 个 写 序列 ,而 且 这 个 序列 不 能 被 中 断 。 因 此 对 这 类 存储 器 进行 写 操作 
时 ,类 似 于 访问 一 种 特殊 的 设备 。 

(4) 存储 事 映 射 的 外 设 。 存 储 器 映射 的 外 设 包括 UART, 网 口 ,RapidIO,PCI Express 及 
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处 理 需 内 部 的 寄存 器 。 此 类 设备 是 PowerPC 软件 工程 师 书 写 设备 驱动 程序 的 工作 重点 ,这些 
外 设 也 是 PowerPC 弱 序 存储 器 结构 影响 最 为 严重 的 内 存 区 域 。 

此 类 存储 需 的 读 取 与 写 人 没有 什么 联系 ,程序 员 往 往 不 能 使 用 对 同一 地 址 的 读 取 操 作 获 
得 刚刚 号 人 的 数值 。 

与 这 些 外 设 进行 数据 交换 需要 一 个 完整 的 操作 序列 来 实现 ,而 这 一 序列 往往 不 能 错 序 也 
不 能 被 中 途 打 断 ,如 插入 其 他 访问 此 类 寄存 器 的 指令 。 因 此 要 求 程序 员 对 此 类 存储 器 进行 保 
护 使 之 不 受到 PowerPC 弱 序 存储 器 访问 机 制 的 影响 。 
3.3.2” 弱 序 存 储 器 访问 机 制 


/ 

弱 序 访问 机 制 是 与 强 序 (Strong Ordering) 相 对 而 言 的 。 强 序 机 制 是 指 程序 对 存储 器 的 访 
问 严 格 按照 程序 的 执行 顺序 进行 ,而 弱 序 机 制 是 指 对 存储 器 的 访问 不 一 定 按照 程序 的 规定 顺 
序 进行 。 

在 E500 内 核 中 ,对 存储 器 的 写 操作 一 定 会 按照 程序 的 执行 顺序 进行 ,而 读 操 作 可 以 乱 序 
执行 ,在 E500 内 核 中 将 这 种 乱 序 操作 称 为 Reordered Loads/Stores。 在 E500 内 核 中 ,系统 总 
线 有 两 条 数据 读 总 线 和 一 条 数据 写 总 线 用 以 支持 读 操作 的 乱 序 执行 。 

图 3-5 中 的 程序 在 E500 内 核 中 执行 时 ,其 访问 顺序 有 可 能 发 生 以 下 乱 序 ; 

e@ Load B 指令 可 以 先 于 Load A(Load/Load 乱 序 )。 . 

@ Store C 指令 可 以 先 于 Load B(Load/Store 乱 序 )。 

@ Load D 指令 可 以 先 于 Store C(Store/Load 乱 序 )。 

这 里 再 次 提醒 读者 注意 ,E500 内 核 并 不 支持 Store/Store 类 的 乱 序 执 行 。 实 际 上 ,没有 哪 
一 种 处 理 需 文 持 Store/Store 类 乱 序 ,其 原因 不 言 而 喻 ,在 一 个 处 理 器 中 ,可 以 轻易 地 将 存储 器 
读 操 作 的 结果 丢弃 ,但 是 任何 一 个 处 理 器 系统 都 很 难 去 除 存 储 器 写 操作 的 结果 。 

如 果 在 乱 序 执行 中 出 现任 何 异 常 或 者 中 断 时 ,比如 Load D 指令 在 Store C 指令 之 前 执行 ， 
而 在 执行 Store C 时 出 现 异常 ,进入 异常 处 理 程序 。 此 时 处 理 器 将 进行 指令 同步 操作 并 且 丢 弃 
Load D 指令 的 执行 结果 ,而 不 影响 程序 的 执行 。 在 E500 内 核 中 除了 支持 存储 器 访问 的 乱 序 
执行 ,还 支持 存储 器 的 猜测 访问 (Speculative Access) 。 存 储 器 猜测 访问 的 例子 如 图 3-6 所 示 。 


Loop:Load A 
| 
ADDI 


图 3-5 存储 器 访问 的 例子 图 3-6 猜测 访问 的 例子 
























而 在 PowerPC 的 弱 序 访问 机 制 下 ,Load B 指令 可 以 在 BC Loop 指令 执行 执行 完毕 之 前 运 
行 , 这 种 在 转移 指令 之 前 进行 的 存储 器 访问 操作 被 称 为 猜测 访问 。 此 时 ,如 果 BC Loop 指令 进 
行 跳 转 并 执行 Load A 指令 ,CPU 将 放弃 本 次 Load B 的 读 取 结果 ;如 果 BC Loop 指令 不 进行 
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跳 转 , 则 CPU 保留 Load B 指令 的 执行 结果 而 去 执行 ADDI 指令 。 

采用 此 方法 可 以 提高 处 理 器 的 指令 流水 线 效率 及 对 存储 器 带宽 的 利用 。PowerPC 体系 
结构 中 的 猜测 访问 并 不 支持 存储 器 写 操作 ,同时 也 不 能 对 被 保护 的 存储 器 (Guarded Memory) 
进行 猜测 访问 。 

以 上 的 猜测 访问 和 乱 序 操作 对 主 存储 器 和 静态 存储 器 并 不 会 产生 影响 ,因为 对 这 些 存储 
髓 进行 读 操 作 并 不 会 影响 这 些 存 储 器 的 状态 ,E500 内 核 将 这 类 存储 器 称 为 Well-behaved 存储 
名 。 但 是 猜测 访问 会 对 Flash 类 存储 器 和 存储 器 映射 的 外 设 带 来 很 大 的 副作用 ,在 这 一 类 存 
储 器 中 ,如 果 进 行 猜测 读 访问 有 可 能 会 打破 对 这 类 存储 器 操作 的 序列 ,从 而 带 来 一 些 不 可 预料 
的 结果 。 

为 文 持 PowerPC 体系 结构 的 存储 器 乱 序 和 猜测 访问 ，PowerPC 体系 结构 在 MMU 中 增 
加 了 一 些 特殊 的 位 以 及 几 个 同步 指令 以 支持 PowerPC 的 弱 序 访问 机 制 ,从 而 维护 PowerPC 体 
系 结构 的 存储 器 访问 一 致 性 。 


3.3.3 PowerPC 处 理 器 的 存储 侣 访问 一 致 性 


存储 器 访问 一 致 性 模型 要 求 整个 系统 提供 一 个 统一 的 存储 器 映像 ,以 便 对 散布 在 不 同 处 
理 器 中 的 数据 进行 共享 。 但 是 有 时 共享 数据 的 拷贝 会 出 现在 Cache 里 或 者 主 存储 器 中 ,从 而 
有 可 能 引发 由 于 数据 不 同步 造成 的 错误 。 对 于 多 处 理 器 结构 ,如 SMP, 这 种 错误 更 容易 发 生 ， 
也 要 费 更 大 的 代价 来 处 理 数据 同步 的 问题 。 本 节 将 重点 介绍 单 处 理 器 中 的 存储 器 访问 一 致 

1. WIMGE 字段 

WIMGE 字段 是 E500 内 核 进行 虚实 地 址 转换 时 ,用 来 描述 物理 地 址 访问 属性 的 字段 。 如 
3.3.1 节 所 示 ,E500 内 核 中 支持 两 类 TLB, 即 TLB0 与 TLB1。 这 两 种 TLB 在 进行 虚实 地 址 
转换 时 都 使 用 了 WIMG 四 位 用 来 处 理 数 据 的 同步 问题 。 

(1) W(Write-through) 位 。 如 果 此 位 为 1 表示 对 此 数据 区 域 的 访问 采用 Write-through 的 
Cache 策略 ,如 果 为 0 表示 使 用 Write-back 的 策略 。 

(2) I(Caching-inhibited) 位 。 如 果 此 位 为 1 表示 对 此 数据 区 域 访问 时 不 使 用 LI1 Cache 进 
行 数据 访问 优化 ,如 果 为 0 表示 使 用 L1 Cache。 

(3) M(Memory-Coherence-Required) 位 。 如 有 果 此 位 为 1 表示 对 此 数据 区 域 的 访问 需要 进 
行 存储 一 致 性 处 理 。 此 位 对 于 单 PowerPC 系统 而 言 没 有 什么 意义 。 对 于 SMP 绪 构 的 处 理 器 
系统 ,由 Memory Coherence 引起 的 Cache 共享 一 致 性 的 问题 十 分 复杂 。 在 SMP 系统 中 ,维护 
Cache 一 致 性 的 方法 较 多 。 如 写 更 新 法 ,在 写 操作 完成 之 后 ,其 数据 在 其 他 Cache 中 无 效 ; 读 
请 求法 ,如 果 Cache 里 出 现 一 个 脏 拷 贝 , 则 需要 回 写 操作 在 读 之 前 完成 ,当然 这 些 方式 需要 硬 
件 支 持 完成 ,如 基于 总 线 监 听 法 保证 SMP 结构 处 理 器 的 Cache 的 一 致 性 。 

在 SMP 结构 处 理 器 中 ,有 些 内 存 区 域 需要 在 多 个 处 理 器 中 共享 ,此 时 在 使 用 MMU 进行 
虚实 地 址 映射 时 将 WIMG 字段 的 M 位 置 1。 此 时 处 理 器 对 该 段 数 据 的 进行 访问 时 一 定 会 通 
知 在 SMP 系统 中 的 其 他 处 理 器 ,以 实现 存储 器 的 共享 一 致 。 

目前 还 没有 基于 E500 内 核 的 多 处 理 器 系统 (Freescale 将 会 在 近期 发 布 第 一 个 基于 E500 
的 双核 处 理 器 MPC8572)。 此 时 程序 员 需 要 将 此 位 置 为 0, 从 原理 上 说 ,此 时 将 此 位 置 为 1 也 
不 会 引发 任何 错误 ,但 是 将 M 位 置 为 1 这 种 做 法 可 能 并 没有 得 到 大 规模 有 强度 的 测试 。 
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(4) G(Guarded) 位 。 此 位 为 1 表示 对 相应 的 存储 区 域 进 行 保护 。 这 一 设置 可 以 用 来 阻止 
PowerPC 处 理 磊 的 猜测 访问 。Flash 类 和 外 设 类 的 存储 区 域 需要 在 程序 中 设置 此 位 ,以 阻止 猜 
测 访 问 。 比 如 E500 内 核 进行 Flash 擦 除 操 作 时 ,有 可 能 会 出 现 与 图 3-6 中 类 似 的 算法 。 例 如 
进行 Flash 擦 除 操作 时 ,需要 首先 写 入 某 些 命令 字 序 列 , 之 后 循环 对 某 个 状态 位 进行 测试 。 此 
时 如 果 人 允许 猜测 访问 ,将 有 可 能 破坏 对 Flash 擦 除 的 指令 序列 ,从 而 导致 Flash 接 除 的 失败 。 

对 于 其 他 外 设 的 访问 有 可 能 也 会 出 现 这 种 类 似 情 况 。 因 此 对 于 Flash 类 和 外 设 类 的 存储 
区 域 进行 虚实 地 址 转换 时 ,需要 对 G 位 进行 设置 。 

除了 这 四 位 之 外 ,E500 内 核 还 提供 了 msync,mbar, isync, lwarx, stwcx. 等 其 他 同步 指令 
用 于 指令 与 存储 器 同步 。 

(5) E(Endian) 位 。 该 位 为 1 时 ,表示 对 此 数据 区 域 的 访问 采用 小 端 模式 。PowerPC 处 理 
器 一 般 使 用 大 端 方式 。 

2. 存储 器 同步 指令 

在 E500 内 核 中 ,对 某 些 寄存 器 进行 访问 (如 MSR ,HID1,LICSR0O 寄存 器 ) 及 执行 某 些 对 
TLB 进行 操作 的 指令 (tlbivax 和 tlbwe) 也 需要 使 用 存储 器 同步 指令 ,如 msync 指令 或 者 mbar 
指令 ,进行 同步 处 理 。 对 MSR 寄存 器 的 WE 位 进行 操作 时 ,PowerPC 处 理 器 将 进入 各 种 低 功 
耗 状态 ,此 时 PowerPC 处 理 器 要 求 在 对 此 位 操作 之 前 使 用 msync 指令 。 此 外 对 HID1 和 
L1CSR0 寄存 器 的 某 些 位 进行 操作 时 也 需要 使 用 msync 指令 进行 同步 。 

在 执行 tlbivax 指令 或 者 ttbwe 指令 后 会 影响 相应 TLB 的 Entry, 如 果 后 续 指 令 对 存储 器 
的 访问 将 使 用 这 些 Entry, 就 一 定 要 使 用 msync 指令 进行 同步 ,以 确保 这 些 存储 器 访问 的 正确 
执行 。 

在 E500 体系 中 ,对 存储 器 的 访问 一 般 要 使 用 lw 或 st 类 指令 ,而 设置 特殊 寄存 器 一 般 使 
用 mtspr 指令 。 从 CPU 的 执行 中 这 两 类 指令 不 会 产生 任何 相关 ,但 在 实际 执行 中 ,对 存储 器 
的 访问 操作 必须 要 等 待 这 些 特殊 寄存 器 的 设置 完毕 后 才能 进行 。 此 时 在 这 些 mtspr 指令 后 必 
须要 执行 msync 指令 以 保证 存储 器 访问 的 正确 执行 。 

产生 这 些 存储 器 同步 指令 的 根本 原因 是 由 于 PowerPC 处 理 器 支持 的 乱 序 访 问 和 猜测 访 
问 而 珊 来 的 存储 器 相关 问题 。 本 书 将 这 类 相关 称 为 “存储 器 隐 性 相关 问题 ”。 

PowerPC 处 理 硕 在 与 许多 外 设 进行 数据 交互 时 ,必须 遵循 一 些 特定 的 访问 序列 ,有 时 这 
些 访问 序列 也 带 来 了 “ 隐 性 相关 问题 *。 比 如 在 一 个 外 部 设备 中 存在 两 个 寄存 器 UD-R1 和 
UD-R2 ,其 中 UD-R1 可 以 进行 写 操作 ,UD-R2 可 以 进行 读 操作 ,PowerPC 对 UD-R1 进行 写 操 
作 时 会 影响 到 UD-R2 的 值 ,这 时 也 带 来 一 些 “ 隐 性 相关 问题 ”。 

PowerPC 处 理 侨 和 许多 文 持 多 发 射 .存储 器 乱 序 执行 的 处 理 器 都 会 遇 到 这 些 “ 存 储 隐 性 
相关 问题 "。PowerPC 处 理 器 采用 了 增加 相关 同步 指令 来 处 理 这 些 “ 存 储 隐 性 相关 问题 ”", 有 
些 这 类 相关 问题 可 以 使 用 硬件 的 方法 进行 ,不 过 这 样 的 设计 过 于 复杂 ,耗费 的 资源 过 多 。 

承担 内 核 IC 设计 的 系统 工程 师 被 乱 序 执行 带 来 的 各 种 相关 问题 困扰 着 ,实在 没有 更 多 的 
精力 处 理 这 些 “ 隐 性 相关 问题 "。 除 此 之 外 ,PowerPC 还 要 与 许多 外 设 进行 连接 ,这 些 外 设 有 
些 是 目 定 义 的 ,对 于 这 种 自 定义 外 设 的 存储 器 进行 访问 而 造成 的 “存储 隐 性 相关 问题 "更 是 无 
法 解决 ,因此 PowerPC 处 理 器 设立 了 一 些 存 储 同 步 指令 以 保证 整个 系统 的 同步 ,如 msync 和 
mbar 指令 。 加 

这 两 条 存储 同步 指令 也 被 称 为 存储 器 栏 机 指令 (Memory Barrier 或 Memory Fence)。 这 类 
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指令 要 求 在 其 之 前 执行 的 对 存储 器 的 操作 必须 要 执行 完毕 才能 执行 这 类 指令 之 后 的 存储 器 读 
写 指令 。 存 储 器 栏 栅 指 令 如 其 名 称 所 示 , 类似 一 个 栏 机 将 其 前 执行 的 存储 器 访问 指令 和 在 其 
后 执行 的 存储 器 访问 指令 隅 离开 来 。 
其 中 E500 内 核 的 msyne 指令 的 执行 码 OPCD 与 其 他 PowerPC 体系 结构 (如 603E 内 核 ) 
的 sync 指令 相同 ,其 意义 有 些 类 似 。msynec 指令 用 于 确保 在 此 语句 之 前 的 所 有 存储 器 访问 
语句 结束 后 ,再 开始 执行 msvnec 指令 后 的 存储 器 访问 语句 。 
执行 msync 指令 会 耗费 处 理 器 大 量 的 时 间 用 于 存储 器 同步 并 会 中 断 指令 流水 线 的 执行 ， 
频繁 使 用 msync 指令 会 极 大 地 降低 处 理 器 效率 ,因为 msync 指令 无 论 访问 任何 内 存 区 域 时 
(无 论 WIMG 字段 为 何 值 时 ) ,都 会 建立 一 个 存储 器 栏 栅 用 来 对 存储 器 访问 进行 同步 。 因 此 
E500 内 核 还 引入 了 一 条 mbar 指令 ,mbar 指令 与 603E 内 核 的 eieio 指令 的 操作 码 OPCD 完全 
相同 ,但 含义 略 有 不 同 。 
eieio 指令 的 英文 是 Enforce In-Order Execution of 1/O, 在 许多 PowerPC 体系 结构 中 将 此 
指令 实现 为 “No-op"( 不 做 任何 操作 ) 指 令 。eieio 指令 对 不 使 能 Cache 的 存储 器 区 域 (WIMG 
字段 的 1 位 为 1) 进 行 同步 ,其 作用 也 是 对 存储 器 操作 指令 间 设 置 栏 机 ,但 是 eieio 指令 只 对 不 
使 能 Cache 的 数据 区 域 有 效 。 对 于 一 些 PowerPC 内 核 , 由 于 对 不 使 能 Cache 的 数据 区 域 的 只 
能 进行 强 序 访问 ,因此 eieio 指令 在 此 类 PowerPC 内 核 中 无 效 。 
mbar 指令 具有 一 个 操作 数 MO, 其 指令 的 格式 为 "mbar MO”。 其 中 MO 是 一 个 5b 大 小 
的 字段 , 取 值 范 围 为 0 一 31。 
9 在 E500 内 核 中 。 当 MO 关 1 时 ,“mbar MO"” 指 令 与 msync 指令 相同 ， 
e 当 MO = 1 时 ,“mbar MO" 指 令 可 以 在 两 种 情况 下 充当 存储 器 栏 机 指令 ,一 种 与 其 他 
PowerPC 体系 下 的 eieio 指令 的 作用 完全 相同 ;而 另 一 种 情况 是 针对 多 处 理 器 结构 的 : 
当 访 问 内 存 区 域 的 WIMG 字段 中 的 W 位 为 0,I 位 为 0 而 M 位 为 1 时 将 对 存储 器 写 操 
作 进 行 同步 。 
由 此 可 见 , 对 于 单 处 理 器 系统 eieio 等 效 于 “mbar 1 "指令 ,eieio 指令 实际 上 是 mbar 指令 的 
一 个 子 集 , 但 是 其 执行 效率 要 比 msync 指令 高 。 在 E500 内 核 中 不 支持 eieio 指令 ,而 是 使 用 
mbar 指令 实现 eieio 指令 。. 
许多 基于 PowerPC 处 理 器 的 操作 系统 对 外 设 的 写 操作 后 都 加 入 了 eieio 指令 。 如 Linux 
系统 中 对 外 设 的 写 图 数 out _ le32，。 


extern inline void out _le32(volatile unsigned _ iomem * addr，int val) 
| 
asm volatile_( stwbrx %1,0,%2; eieio :=m (x*addr) : 
“(val), r (addr)); 
| 

本 书 建议 在 进行 嵌入 式 系统 开发 时 将 外 设 的 写 操作 与 “eicio" 指 令 进行 封装 ,并 不 建议 各 
序 员 直接 使 用 stw 类 指令 对 外 部 设备 直接 进行 访问 。 

3. 指令 同步 

在 PowerPC E500 中 有 两 类 指令 可 以 用 作 指 令 同 步 ,isync 和 sc 指令 以 及 rfi 类 指令 ,rfi 类 
指令 包括 rfi,rfci 和 rfmi 指令 。 

指令 同步 与 之 前 提 到 的 存储 器 同步 指令 没有 直接 联系 。 这 类 指令 的 主要 作用 是 排 空 指令 
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流水 线 。 排 空 指令 流水 线 包 含 两 方面 内 容 ,一 是 将 未 执行 的 指令 从 指令 队列 中 抛弃 ,二 是 等 待 
已 执行 的 指令 结束 。 因 此 在 指令 同步 之 后 ,处理 器 将 重新 对 指令 进行 预 取 。 

isync 指令 是 一 个 显 式 同步 指令 。PowerPC 处 理 器 规定 了 在 执行 一 些 指令 后 必须 使 用 
isync 指令 进行 同步 。 这 些 需要 在 其 后 加 入 isync 的 指令 一 般 都 有 一 个 共性 , 即 这 些 指令 改变 
了 其 后 指令 的 运行 空间 。 

sc,Ifi 类 指令 分 别 是 系统 调用 (system call) 指 令 和 中 断 返 回 指令 。 执 行 这些 指 令 会 切换 程 
序 的 执行 空间 ,因此 这 些 指令 的 执行 也 要 求 指令 流水 线 的 排 空 。 对 于 一 个 中 断 和 系统 调用 频 
过 的 应 用 ,sc 和 rfi 指令 引起 的 流水 线 排 空 操 作 是 导致 系统 效率 低下 的 主要 原因 ,而 且 处 理 带 
的 指令 流水 线 的 深度 越 深 ,这 种 影响 越 大 。 


3.4 CCB 总 线 的 设计 


CCB 总 线 是 E500 内 核 的 前 端 总 线 ,E500 内 核 并 没有 公开 其 系统 总 线 设 计 的 细节 。 这 条 
总 线 对 绝 大 多 数 软件 (包括 系统 软件 ) 透明。 基于 E500 内 核 的 处 理 器 并 不 像 基于 603E 内 核 
的 处 理 器 将 60X 总 线 引 出 ,而 是 在 片 内 使 用 这 条 总 线 。 这 样 做 的 主要 原因 如 下 : 
e@ 必 片 内 部 前 端 总 线 的 频率 越 来 越 高 ,将 这 条 总 线 直 接 引 到 外 部 并 保持 与 在 SOC 中 同样 
的 时 钟 频 率 比 较 难 以 实现 。 
e@ 对 于 绝 大 多 数 设计 ,没有 必要 向 用 户 提 供 前 端 总 线 。 前 端 总 线 包 含 了 许多 存储 器 一 臻 
和 Cache 同步 的 信号 ,一 般 用 户 无 需 使 用 这 些 信和 号。 
e@ 前 端 总 线 一 般 在 SOC 的 设计 中 才 会 用 到 ,一 般 来 说 前 端 总 线 的 引 脚 过 多 ,在 芯片 设计 
时 也 没有 太 好 的 办 法 将 前 端 总 线 全 部 引出 到 外 部 引 脚 。 
E500 手册 屏蔽 了 大 多 数 CCB 总 线 的 实现 细 市 ,包括 许多 重要 的 便 件 引 脚 。 一 般 来 说 般 
入 式 处 理 器 很 少将 前 端 总 线 完 全 引 到 片 外 。 
CCB 总 线 继承 了 60X 总 线 的 大 部 分 内 容 , 并 略 有 改进 ,而 60X 总 线 又 是 基于 摩托 罗拉 的 
第 一 颗 RISC 芯片 88110 处 理 器 的 系统 总 线 。 从 体系 结构 的 角度 上 看 88110 处 理 器 的 系统 总 
线 ,60X 总 线 和 E500 内 核 的 CCB 总 线 并 没有 质 的 变化 。 作 为 处 理 需 的 前 端 总 线 ,CCB 总 线 具 
有 以 下 特性 : 
e@ 可 以 连接 多 个 处 理 器 ,支持 SMP 结构 的 多 处 理 器 。 这 些 处 理 器 可 以 使 用 总 线 监 听 法 实 
现 内 部 Cache 的 共享 一 致 性 。CCB 总 线 也 可 以 支持 L2 Cache, CPM 和 SOC 中 的 的 其 
他 外 设 与 L1 Cache 的 共享 一 致 性 。 
@ 可 以 支持 inline Cache 或 者 look-aside 方式 的 Cache。 支 持 Cache 和 TLB 管理 的 指令 , 许 
多 Cache 和 TLB 管理 的 指令 需要 广播 到 CCB 总 线 上 ,以 保证 整个 系统 的 Cache 和 TLB 
的 一 致 性 。 
e@ 支持 多 处 理 器 对 主 存储 器 的 共享 。 
e@ 文 持 弱 序 存储 器 访问 。 
e@ 文 持 处 理 器 对 存储 器 的 原子 操作 。 
CCB 总 线 由 总 线 仲 裁 信 号 ,总线 控 制 信号 .地址 总 线 与 数据 总 线 组 成 。CCB 总 线 含 有 两 
条 独立 的 数据 读 总 线 , 一 条 数据 写 总 线 用 来 支持 PowerPC 处 理 器 对 CCB 总 线 的 读 写 操作 ， 
CCB 总 线 为 这 三 条 总 线 提供 了 不 同 的 控制 与 命令 信号 以 保证 处 理 器 有 可 能 同时 操作 这 三 条 
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总 线 。 
CCB 总 线 中 含有 两 条 独立 的 地 址 总 线 , 一 条 地 址 总 线 作 为 输出 ,可 以 用 来 对 CCB 总 线 上 
的 设备 进行 访问 ,而 另 一 条 地 址 总 线 作为 输入 ,可 以 支持 CCB 总 线 的 监听 。 


3.4.1 CCB 总 线 访问 周期 


CCB 总 线 是 一 个 同步 总 线 ,其 地 址 总 线 和 数据 总 线 分 离 ,可 以 支持 地 址 流水 和 分 离 传送 
两 种 较为 先进 的 数据 传送 方式 。 在 多 处 理 器 系统 中 ,这 些 总 线 传送 方式 可 以 极 大 地 提高 CCB 
总 线 的 利用 率 。 

CCB 总 线 的 访问 周期 分 为 总 线 仲 裁 ,数据 传 送 和 总 线 结束 3 个 阶段 。 

(1) 总 线 仲裁 阶段 。 在 此 阶段 ,总线 仲裁 器 需要 对 CCB 总 线 进行 访问 的 设备 进行 仲裁 ， 
以 确定 设备 可 以 使 用 哪 条 总 线 的 使 用 权 。CCB 总 线 仲裁 器 可 以 分 别 为 数据 总 线 和 地 址 总 线 
进行 独立 仲裁 。 

因此 在 CCB 总 线 中 的 设备 可 以 分 别 获得 地 址 ,数据 总 线 的 使 用 权 或 者 同时 获得 地 址 和 数 
据 总 线 的 使 用 权 。 这 种 总 线 仲裁 方式 使 得 CCB 总 线 Address pipelining 和 split transaction 数 
据 传送 成 为 可 能 。 

(2) 数据 传送 阶段 。CCB 总 线 的 数据 传送 分 为 地 址 周期 和 数据 传送 周期 。 当 一 个 外 部 设 
备 获得 地 址 总 线 使 用 权 后 , 即 可 开始 数据 传送 的 地 址 周期 。 在 进行 数据 传送 时 ,设备 完成 地 址 
总 线 的 使 用 后 将 释放 本 次 地 址 总 线 的 使 用 权 , 此 后 总 线 仲裁 器 就 可 将 地 址 总 线 分 配给 其 他 使 
用 地 址 总 线 的 设备 , 而 无 需 等 待 数据 传送 完毕 , 这 种 数据 传送 方式 有 效 地 支持 了 Address 
Pipelining 和 Split Transaction 数据 传送 方式 。. 

而 对 某 些 访问 延 时 较 大 的 设备 进行 数据 传送 操作 时 ,CCB 总 线 还 支持 Split Transaction 
数据 传送 方式 ,在 这 种 方式 下 ,一 次 CCB 总 线 周 期 中 可 以 插入 其 他 对 CCB 总 线 的 访问 周期 。 
Address Pipelining 和 Split Transaction 数据 传送 的 时 序 如 图 3-7 所 示 。 


总 线 仲裁 | 地 址 周期 | 数据 周期 | 传送 结束 


传送 结束 


a) 


总 线 仲 夫 





b) 


图 3-7 Address Pipelining 和 Split Transaction 数据 传送 方式 
a) Address Pipelining 传送 方式 ”b) Split Transaction 数据 传送 方式 


(3) 传送 结束 阶段 。 在 此 阶段 中 ,CCB 总 线 主 设备 停止 对 地 址 与 数据 总 线 的 使 用 并 获取 
传送 成 功 或 失败 信息 ,结束 CCB 总 线 的 数据 传送 周期 。 


3.4.2 CCB 总 线 的 主要 数据 信号 线 


CCB 总 线 中 包含 的 信号 线 非 常 多 。 本 节 只 对 CCB 总 线 中 的 控制 和 命令 信号 进行 说 明 ,这 
些 信号 包括 ttlt0:4],gbl# ,ci# ,cl## 和 ts## 信 和 号。 
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e@ tt 信号 共有 5 位 ,用 来 描述 CCB 总 线 中 定义 的 数据 传送 方式 。 

e@ glb# 信 和 号 用 来 反映 WIMG 字段 中 的 M 位 , 当 对 M 位 为 1 的 数据 区 域 进行 访问 时 ,该 
信号 有 效 ,该 信号 用 来 处 理 Cache 的 共享 一 致 。 | 

e@ ci# 信 号 用 来 反映 WIMG 字段 中 的 I 位 , 当 对 I 位 为 1 的 数据 区 域 进行 访问 时 ,该 信号 
有 效 ,该 信号 用 来 访问 不 使 能 Cache 的 数据 区 域 。 

@ cl# 信 号 用 来 反映 L2 Cache 的 锁 存 位 。 

e@ ts 井 信和 号 用 来 表示 CCB 总 线 的 数据 周期 的 开始 。 


3.4.3 ”CCB 总 线 操 作 


CCB 总 线 支 持 的 总 线 操作 方式 大 于 16 种 , 共 使 用 5 位 状态 信号 tt [0:4] 区 分 这 些 总 线 操 
作 方 式 。CCB 的 这 些 总 线 操作 共 分 为 三 大 类 : 读 操作 、 写 操作 和 地 址 访问 操作 方式 。 

其 中 CCB 总 线 读 写 操 作 可 以 以 Cache 行为 单位 对 CCB 总 线 进行 突 发 读 写 , 也 支持 1 个 字 
万 到 8 个 字 节 的 单 次 总 线 读 写 操 作 。CCB 总 线 的 读 写 操作 需要 使 用 CCB 总 线 的 地 址 和 数据 
总 线 ;CCB 总 线 上 的 地 址 访问 操作 支持 一 些 对 Cache, MMU 的 操作 ,以 及 一 些 同步 指令 和 一 
些 地 址 广播 操作 。CCB 总 线 上 的 地 址 访问 操作 仅仅 使 用 CCB 总 线 的 地 址 线 , 而 不 使 用 数据 
总 线 。 

CCB 总 线 保 证 所 有 连接 在 这 条 总 线 上 的 Cache 和 主 存储 器 的 一 致 性 。 这 种 一 致 性 基于 总 
线 监听 法 。CCB 总 线 要 求 所 有 需要 支持 存储 一 致 的 设备 必须 对 CCB 总 线 进 行 监听 并 根据 监 
听 的 结果 改变 Cache 行 中 的 MESI 状态 以 保证 存储 一 致 性 。MPC8SXX 芯片 使 用 SDMA 进行 
数据 传送 时 ,可 以 设置 GBL 位 , 当 此 位 为 1 时 ,使 用 SDMA 数据 传送 将 保证 Cache 的 一 致 性 ， 
这 一 功能 显著 地 提高 了 SDMA 的 效率 。 

如 果 CCB 总 线 不 支持 SDMA 访问 与 Cache 的 一 致 , 挂 接 在 CCB 总 线 上 的 MPC85XX 世 
片 的 设备 与 主 存储 器 进行 DMA 数据 传送 时 将 无 视 Cache 的 存在 。 因 此 如 果 SDMA 不 支持 与 
Cache 的 一 致 性 ,处理 锅 在 进行 SDMA 读 操作 前 ,必须 对 Cache 进行 刷新 操作 以 保证 Cache 与 
存储 需 的 一 致 性 。 当 使 用 SDMA 对 主 存储 器 进行 写 操 作 后 ,由 于 SDMA 只 更 新 了 主 存储 器 ， 
并 没有 更 新 Cache, 也 会 造成 主 存储 器 和 Cache 的 不 一 致 ,因此 在 使 用 SDMA 写 操作 后 ,必须 
进行 Cache 无 效 操作 ,将 与 SDMA 使 用 的 内 存 空间 相对 应 的 Cache 使 无 效 后 ,E500 内 核 才 能 
对 这 些 数 据 进行 读 操作 。 
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第 4 侠 基于 ES00 内 核 的 PowerPC 处 理 大 


Freescale PQIII 系列 的 芯片 都 是 基于 E500 内 核 的 处 理 器 。 这 些 处 理 器 包括 MPC8540、 
MPC8360.MPC8541、 MPC8547 和 MPC8548 等 。 这 一 类 芯片 主要 适用 于 通信 和 领域 的 高 端 应 
用 ,此 外 在 工业 控制 领域 ,PQIII 芯片 也 得 到 了 广泛 的 应 用 。 

Freescale 在 近期 还 会 推出 一 系列 基于 E500 内 核 的 处 理 器 ,包括 一 些 基于 E500 内 核 的 多 
核 处 理 器 。 基 于 E500 内 核 的 处 理 器 是 Freescale 高 端 处 理 器 发 展 的 主要 方向 ,这 也 是 本 书 以 
E500 内 核 为 例 , 介 绍 PowerPC 处 理 器 的 主要 原因 。 


4.1 基于 E500 内核 的 处 理 器 


Freescale 基于 E500 V1 内 核 的 芯片 主要 包括 MPC8540、MPC8560、MPC8541 与 
MPC8555 ,基于 E500 V2 内 核 的 芯片 主要 有 MPC8548,MPC8547 等 。 

在 有 些 MPC85XX 芯片 内 部 集成 了 两 个 处 理 模 块 ,一 个 高 性 能 PowerPC E500 内 核 和 一 
个 通信 处 理 模 块 (Communications Processor Module, CPM)。 此 外 ,这 类 芯片 系列 中 还 提供 了 
月 内 L2 Cache、DDR 控制 器 、 可 编程 中 断 控制 器 .通用 I/O 口 . DMA 和 IC 等 多 种 接口 控制 
化 。MPC85XX 心 片 结构 如 图 4-1 所 示 。 


ESOO Core 
32 KB 32 KB 256 KB L2 Cache 
lI-Cache D-Cache 


CCB(Core Complex Bus) 


Coherency 
Module 


PCI Bus DDR Local Bus CPM PIC Rapid 
Controller Controller Controller LI/O 
， 图 4-1 基于 E500 内 核 的 PowerPC 处 理 咒 


由 上 图 所 示 ,一 个 基于 E500 内 核 的 PowerPC 处 理 器 除了 E500 内 核 和 L2 Cache 外 ,一 般 
还 包含 以 下 模块 . 
@ PCI 总 线 控制 器 ,可 以 支持 PCI32、PCI64 总 线 。MPC8560 和 MPC8540 处 理 器 还 支持 
PCI-X 总 线 。 在 MPC8548 种 还 支持 PCI Express 总 线 。 
e DDR 控制 逢 , 可 以 文 持 64 位 的 DDR 总 线 宽 度 。 目 前 一 部 分 Freescale 的 MPC85XX 系 
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列 芯片 还 支持 DDR-2 总 线 。 
e@ Local Bus 控制 器 ,可 以 与 Flash、SDRAM 及 其 他 外 部 设备 进行 相连 。 
e@ PIC 控制 器 用 于 管理 所 有 外 部 中 断 。MPC85XX 处 理 器 的 PIC 控制 器 与 OpenPIC 构架 
的 中 断 控制 器 兼容 。 
e Rapid I/ 〇 控制 器 ,目前 有 的 MPC85XX 处 理 器 支持 并 行 Rapid 1/O 接口 ,有些 支 持 串 行 
Rapid I/O 接口 。 
@ CPM ,是 Freescale 用 作 处 理 网 络 协议 的 处 理 器 ,其 中 集成 了 许多 与 通信 相关 的 各 种 接 
口 如 TDM、ATM 同步 及 异步 串 行 口 等 各 种 外 设 。 尽 管 CPM 的 接口 丰富 ,功能 强大 ， 
但 从 计算 机 体系 结构 的 角度 上 看 并 没有 什么 新 颖 之 处 。 从 处 理 器 的 设计 角度 上 看 , 采 
用 CPM 的 优点 主要 是 利用 软件 采取 了 一 种 相对 廉价 的 方法 实现 了 与 现代 通信 中 常用 
的 接口 进行 连接 。 
本 文 将 简要 介绍 CPM 与 PowerPC 处 理 器 的 通信 机 制 , 同 时 对 处 理 器 内 部 内 存 映射 的 寄 
存 器 、.L2 Cache 与 处 理 器 体系 结构 有 关 的 模块 进行 简单 描述 。 有 关 PIC 中 断 控 制 器 的 内 容 将 
结合 Linux PowerPC 的 源 代码 进行 详细 说 明 。 


4.1.1 ”PowerQUICC III 处 理 器 的 CPM 


1993 年 ,摩托 罗拉 半导体 事业 部 ( 飞 思 卡 尔 半 导体 的 前 身 ) 在 充分 理解 通信 条 统 应 用 的 基 
础 上 ,生产 了 第 一 颗 包 含 QUICC (Quad Integrated Communications Controller) 的 芯片 一 一 
MC68360。QUICC 实际 上 是 一 个 独立 的 处 理 器 ,其 中 的 Quad 一 词 源 自 MC68360 中 有 四 个 
串 行 通信 控制 器 (SCC) ,实际 上 这 颗 芯 片 还 有 两 个 串 行 管理 控制 器 (SMC) 和 一 个 串 行 外 围 接 
口 电 路 (SPI) 。 

这 颗 基 于 68 K 内 核 的 芯片 可 以 支持 当时 通信 系统 设计 中 需要 的 10M 以 太 网 ,7 号 信 令 
系统 ,HDLC/SDLC,PPP(Point to Point Protocol) ,V.14,X.21, 以 及 各 种 串 行 通路 。 在 当时 ， 
这 颗 芯 片 的 推出 可 以 用 横 空 出 世 来 形容 。 

1994 年 ,摩托 罗拉 半导体 事业 部 的 工程 师 开 始 将 MC68360 中 QUICC 通信 处 理 器 模块 与 
PowerPC 内 核 相 结 合 。 摩 托 罗 拉 半 导体 事业 部 将 集成 了 QUICC 的 PowerPC 处 理 器 统称 为 
PowerQUICC 系列 ,并 将 QUICC 处 理 模块 称 为 CPM。 

一 年 后 ,具有 PowerPC 603 内 核 的 MPC860 芯片 面世 。 这 颗 芯 片 的 诞生 标志 了 一 个 通信 
处 理 硕 时 代 的 开始 ,从 计算 机 体系 结构 的 角度 上 看 ,这 颗 芯 片 实现 了 将 作为 控制 中 心 PowerPC 
处 理 副 和 作为 数据 处 理 中 心 的 CPM 分 离 ,采用 了 控制 通路 和 数据 通路 分 开 的 思想 。 在 此 后 
的 许多 年 间 ,这 果 芯 片 在 通信 处 理 器 领域 中 没有 对 手 。 即 使 是 现在 ,这 颗 芯 片 仍 然 有 着 广泛 的 
应 用 。 

随后 PowerPC 内 核 和 CPM 处 理 单元 的 主 频 不 断 地 提高 ,新 的 通信 协议 不 断 加 到 CPM 
中 。PowerQUICC 系列 芯片 也 从 最 初 的 PowerQUICC I 升级 到 PowerQUICC IT, Pow- 
erQUICC II 和 PowerQUICC II Pro 系列 。 

其 中 PowerQUICC II Pro 系列 的 某 些 芯片 将 CPM 模块 进一步 升级 为 QUICC Engine。 
QUICC Engine 技术 在 CPM 技术 的 基础 上 又 向 前 演进 了 一 步 。 它 可 以 采用 两 个 RISC 引擎 ， 
能 够 提供 4 倍 于 CPM 的 数据 吞吐 量 。QUICC 引擎 技 术 还 能 对 L3/L4 协议 进行 处 理 , 并 提供 
集成 的 多 协议 处 理 和 互通 功能 ,速度 高 达 1.2 Gbit/s。 这 些 技术 使 PowerPC 内 核能 够 进一步 
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集中 于 控制 通路 的 处 理 , 从 而 提高 了 PowerQUICC 处 理 器 的 整体 性 能 。 

即便 如 此 ,PowerQUICC 系列 的 根本 设计 思想 并 没有 质 的 改变 ,CPM 与 PowerPC 内 核 间 
的 通信 机 制 也 没有 质 的 变化 。 

1. MPC85XX CPM 的 组 成 

MPC85XX 是 属于 PowerQUICC III 的 通信 处 理 芯 片 。MPC85SXX 在 内 部 集成 了 两 个 处 
理 模 块 ,一 个 模块 是 PowerPC E500 处 理 器 内 核 , 另 一 个 是 通信 处 理 模块 (CPM) 。 一 个 典型 的 
CPM 一 般 包 括 以 下 几 个 单元 ,如 图 4-2 所 示 。 


Local Bus 


System Bus 


CPM 
Interrupt Bus Interface SDMA 
Controller 


Internal Bus 


CPM 一 一 Peripheral Bus 


Ss 


FCC SCC SMC MCC SPI I2C 





PIO 


图 4-2 CPM 组 成 结构 图 


(1) 通信 处 理 需 (Communication Processor,CP) 。CPM 内 部 集成 了 一 颗 32 位 的 处 理 器 用 
来 管理 CPM 中 的 设备 及 中 断 。CP 将 CPM 中 的 外 设 与 PowerPC 隔离 ,并 集中 对 设备 的 控制 
通路 进行 管理 。 这 种 外 设 管理 方式 可 以 提高 PowerPC 的 访问 外 部 设备 的 效率 ,但 或 多 或 少 地 
增加 了 PowerPC 访问 外 设 的 延 时 。 

” (2) Serial DMA。CPM 可 以 通过 SDMA 与 PowerPC 的 系统 总 线 (System Bus) 和 局 部 总 

线 (Local Bus) 进 行 数据 交换 。 从 而 实现 了 PowerQUICC 芯片 中 控制 通路 与 数据 通路 的 分 离 。 

(3) 功能 部 件 FCC、SCC、SMC、MCC.、SPI、I2C 和 USB 用 来 支持 各 种 外 设 ,如 以 太 网 、U- 
TOPIA、TDM、UART 和 BISYNC 等 。 

(4) 双 端 口 存储 器 (Dual Port RAM,DPRAM)。 在 DPRAM 中 可 以 存放 CP 和 SDMA 中 
的 一 些 参 数 、.CP 的 可 执行 代码 .FCC、SCC 等 功能 部 件 使 用 的 一 些 临 时 数据 。DPRAM 可 以 被 
PowerPC 内 核 .CP、SDMA 访问 。CP 的 可 执行 代码 主要 是 放 在 片 内 ROM 中 的 。DPRAM 中 
的 可 执行 代码 主要 是 更 新 已 有 代码 的 patch 或 加 入 新 的 协议 。- 

DPRAM 中 还 存放 了 一 组 重要 的 参数 ,PowerQUICC 将 这 些 参数 存放 的 位 置 称 为 参数 
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RAM(Parameter RAM)。 在 参数 RAM 中 存放 了 对 CPM 中 的 外 部 设备 如 FCC、SCC 的 描述 和 
定义 ,参数 RAM 中 共存 放 了 两 类 参数 RX 参数 和 TX 参数 。 

参数 RAM 可 以 被 PowerPC 内 核 直接 访问 。 其 中 PowerPC 内 核 可 以 在 处 理 器 的 运行 时 
刻 对 RX 参数 和 TX 参数 进行 修改 。 在 CPM 相应 外 设 的 接收 禁止 后 ,PowerPC 处 理 需 可 以 对 
RX 参数 进行 修改 ;在 CPM 相应 外 设 的 发 送 禁止 后 , PowerPC 处 理 器 可 以 对 TX 参数 进行 
修改 。 

当 PowerQUICC 处 理 器 需要 对 CPM 相应 的 外 设 ,如 SCC 的 工作 状态 进行 修改 时 ,需要 首 
先 通过 CP 将 SCC 的 接收 部 件 或 发 送 部 件 禁 止 ,然后 修改 相应 SCC 的 参数 RAM, 最 后 通过 
CP 重新 启动 SCC 的 接收 或 发 送 部 件 。 这 里 要 提醒 读者 :PowerPC 处 理 器 在 修改 参数 RAM 时 
有 些 限 制 ,有 些 操作 必须 在 CPM 禁止 对 应 的 收发 后 才能 进行 。 

(5) 数据 缓冲 描述 符 (Buffer Descriptor, BD)。 在 PowerQUICC 体系 中 ,程序 员 可 以 根据 
需要 将 BD 存放 在 CPM 未 用 的 DPRAM 中 或 者 主 存储 器 中 。BD 中 定义 了 CPM 与 系统 总 线 
及 其 MPC85XX 芯片 局 部 总 线 使 用 SDMA 进行 数据 传递 的 规则 。 其 中 BD 中 的 数值 由 Pow- 
erPC 内 核 进行 填写 并 由 CPM 进行 状态 更 新 ,CPM 可 以 根据 BD 中 的 数据 自动 发 起 SDMA 操 
作 将 CPM 外 设 中 的 数据 根据 需要 传递 到 DDR 或 者 局 部 总 线 的 内 存 中 。 

驱动 程序 设计 人 员 可 以 根据 需要 使 用 一 个 BD 或 者 一 组 BD 进行 数据 转送 。 一 般 都 要 求 
至 少 两 个 BD, 否 则 容易 产生 underrun 或 者 overrun。BD 共 分 为 接收 BD 和 发 送 BD 两 类 。 接 
收 BD 和 发 送 BD 都 由 4 个 字 节 组 成 。 其 中 BD 的 第 0,1 字 节 用 来 存放 BD 的 状态 和 控制 信 
息 。 这 些 状态 和 控制 位 根据 CPM 所 支持 的 外 设 的 不 同 而 有 所 不 同 ;第 2,3 字 节 用 来 存放 当 
前 BD 所 能 传送 或 接收 的 数据 大 小 ;第 4,5,6,7 字 节 用 来 存放 数据 发 送 或 接收 的 地 址 。 

(6) 波 特 率 发 生 器 (Baud-Rate Generator, BRG)。BRG 在 CPM 内 部 ,可 以 为 CPM 内 部 的 
SCC,FCC 等 功能 单元 提供 时 钟 源 ,也 可 以 输出 到 CPU 外 部 。BRG 的 输入 时 钟 可 以 来 目 
BRGCLK(BRGCLK 可 以 由 系统 时 钟 分 频 产生 ) ,也 可 以 来 自 外 部 输入 引 脚 。 这 些 时 钟 在 BRG 
中 可 以 根据 实际 需要 进行 分 频 。BRG 的 工作 原理 如 图 4-3 所 示 。 








Prescale 
by 
1 or 4096 


Output Pin 


Communication controller 


图 4-3 BRG 的 工作 原理 


(7) CMX(CPM Multiplexing Logic)。CMX 用 来 将 CPM 中 的 各 个 功能 部 件 如 FCC、SCC 
与 物理 层 设备 进行 连接 。 这 些 功能 部 件 与 物理 层 设备 进行 连接 时 共有 两 种 模式 进行 选择 ， 
NMSI(Nonmultiplexed Serial Interface) 或 SI(Serial Interface)。 其 中 NMSI 模式 用 来 连接 以 太 
网 ,UTOPIA、 同 /异步 串口 等 其 他 外 部 接口 ,而 SI 模式 用 来 连接 TDM 设备。 

(8) 并 行 输 入 /输出 接口 (Parallel I/O,PIO)。 在 CPM 内 部 支持 多 组 PIO 接口 ,这 些 PIO 
接口 可 以 用 作 通 用 I/O 接口 也 可 以 根据 寄存 器 设置 作为 某 些 设备 的 专用 接口 。 

2. CPM 的 工作 原理 

CPM 中 除了 具有 一 个 32 位 的 处 理 器 以 外 ,还 有 固化 在 ROM 中 的 程序 , 串 行 通 信 控 制 
个 ,以 及 与 各 个 通信 控制 器 相关 的 数据 结构 。 
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CPM 的 工作 原理 较为 复杂 ,理解 CPM 各 个 功能 模块 的 工作 原理 的 过 程 也 是 理解 各 个 功 
能 模块 所 支持 协议 的 过 程 。 操 作 系 统一 般 将 CPM 各 个 功能 模块 以 设备 驱动 程序 的 方式 实 
现 , 因 此 CPM 虽然 在 PowerQUICC 处 理 器 中 占有 绝对 的 重要 地 位 ,但 在 PowerPC 处 理 器 的 体 
系 结构 中 并 不 重要 。 本 书 仅 以 SCC UART 为 例 简要 说 明 CPM 的 工作 原理 。UART 的 初始 
化 流程 如 下 所 示 : 

(1) 初始 化 PIO, 将 PIO 的 相应 引 脚 设置 为 与 UART 相关 的 引 脚 。 

(2) 初始 化 BRG, 为 UART 设 定 时 钟 频率 。 

(3) 初始 化 CPM 的 CMX ,选择 NMSI 模式 。 

(4) 初始 化 GSMR_H 和 GSMR _L 寄存 器 。GSMR(General SCC mode Register) 用 来 设 
置 SCC 的 工作 模式 及 工作 参数 ,将 SCC 设置 为 UART。 

(5) 初始 化 PSMR 寄存 器 ,以 确定 UART 的 工作 协议 。 

(6) 初始 化 SCC1( 选 定 SCC1 处 理 UART 接口 ) 的 参数 RAM,RxBD 和 TxBD。 

(7) 通过 操作 CPCR 寄存 器 向 CP 提交 一 系列 命令 使 得 参数 RAM 中 的 值 生效 。 

(8) 清除 SCCE 中 残留 的 UART 事件 。 

(9) 使 能 中 断 。 用 户 可 以 根据 需要 屏蔽 或 者 使 能 中 断 。 

(10) 在 GSMR _ 世 寄 存 句 中 使 能 UART 的 发 送 和 接收 。 

初始 化 完成 后 ,驱动 程序 设计 人 员 只 需要 操作 相应 的 RxBD 和 TxBD 就 可 以 完成 UART 
接口 的 发 送 和 接收 操作 。CPM 的 其 他 功能 单元 的 工作 原理 与 UART 接口 有 相似 之 处 ,不 过 
随 着 功能 模块 所 支持 协议 的 不 同 ,初始 化 的 过 程 不 尽 相同 。CPM 功能 模块 所 支持 的 协议 越 复 
杂 , 相 应 的 初始 化 流程 也 越 繁琐 。 对 此 ,本 书 不 再 一 一 叙述 。 


4.1.2 ”PowerQUICC III 处 理 器 中 存储 器 映射 的 寄存 右 


MPC85XX 处 理 器 中 有 两 类 寄存 器 ,一 类 寄存 器 是 PowerPC E500 内 核 的 内 部 寄存 需 如 
MSR ,HID 寄存 器 等 ,使 用 mtspr, mfspr 指令 可 以 对 这 些 寄存 右 进 行 读 写 ; 而 另 一 类 寄存 人 般 是 
MPC85XX 处 理 器 的 内 部 寄存 器 ,这 些 寄 存 器 采用 存储 器 映射 进行 寻 址 ,其 地 址 空间 大 小 为 
1MB, 如 LAWBAR0,LAWBAR1 寄存 器 等 。 用 户 可 以 使 用 stw 和 lwz 等 存储 器 读 写 指令 对 这 
些 存 储 器 映射 的 寄存 器 进行 访问 。MPC8SXX 处 理 右 内 储 器 映射 的 寄存 器 根据 功能 可 以 分 为 
以 下 几 类 。 

(1) Local Access Register( 局 部 访问 寄存 器 )。 局 部 访问 寄存 句 主 要 用 于 定义 .MPC8SXX 
的 数据 访问 空间 。 包 括 CCSRBAR 寄存 器 ,LAWBAR0~7 和 LAWAR0~7 寄存 髓 。 

其 中 CCSRBAR 寄存 器 用 来 确定 MPC85XX 中 采用 存储 器 映射 的 寄存 器 的 基地 址 。 此 寄 
存 器 只 有 第 12 一 23 位 有 效 , 默 认 值 为 0x000FF700, 表 示 MPC85XX 的 内 部 寄存 器 映射 在 
0xFF700000 开始 的 1MB 空间 里 。 此 寄存 器 可 写 , 用 户 可 以 将 MPC85XX 内 部 寄存 右 的 基地 
址 映射 到 其 他 1MB 对 界 的 空间 里 。 对 此 寄存 器 进行 读 写 时 需要 注意 同步 问题 。 

LAWBAR0 一 7, LAWAR0 一 7 寄存 器 。LAWBAR ,LAWAR 寄存 器 用 来 描述 MPC85XX 
处 理 器 物理 地 址 空间 的 划分 ,此 寄存 器 共 分 为 8 组 ,可 以 将 MPC8SXX 处 理 器 内 4GB 的 空间 
划分 为 8 组 。 其 中 LAWBAR 用 来 指定 基地 址 。LAWAR 用 来 指定 此 空间 是 用 作 PCI, Local 
Bus,RapidIO 还 是 DDR 空间 。 

(2) PIC Register( 中 斯 控制 寄存 器 ) 。 用 于 配置 MPC85XX 的 可 编程 序 控制 郑 。 
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(3) DDR Memory Controller Memory Map(DDR 总 线 控制 寄存 器 ) 。 用 于 配置 MPC85XX 
处 理 句 的 DDR 总 线 控制 器 。DDR 总 纪 线 控制 寄存 带 必 须根 据 当 前 处 理 器 系统 中 采用 的 DDR 
颗粒 进行 配置 。 

(4) Local Bus Controller Register( 局 部 总 线 控制 寄存 器 ) 。 用 于 配置 MPC85XX 处 理 器 的 
局 部 总 线 。MPC85XX 处 理 器 的 局 部 总 线 可 以 与 异步 存储 器 如 NOR-FLASH 进行 连接 ,也 可 
以 连接 SDRAM。MPC85XX 处 理 器 的 局 部 总 线 可 以 为 用 户 提供 8 条 片 选 信和 号 ,用 户 可 以 使 用 
局 部 总 线 连接 自 定义 的 设备 ,与 此 对 应 ,MPC85XX 处 理 器 芯片 中 提供 了 8 组 寄存 器 BR0 一 7 
与 OR0 一 7, 用 来 描述 对 应 片 选 信和 号 所 访问 空间 的 大 小 与 属性 。 

(5) PCI Register(PCI 总 线 控制 寄存 器 )。MPC85XX 处 理 器 支持 PCI 2.2 规范 ,可 以 被 配 
置 成 为 PCI 总 线 的 Host 设备 或 者 Agent 设备 。MPC85XX 处 理 器 的 PCI 寄存 器 中 有 许多 个 
寄存 器 ,其 中 有 关 Outbound Window 和 Inbound Window 的 两 组 寄存 器 值得 关注 。 

当 MPC85XX 处 理 器 工作 在 PCI Host 模式 时 ,Outbound Window 寄存 器 组 用 来 配置 当前 
处 理 天 系统 中 的 PCI Agent 设备 的 物理 地 址 空间 的 基地 址 ,工作 模式 和 地 址 空间 大 小 。 在 
A 处 理 夯 中 有 4 组 Outbound Window 寄存 器 ,在 实际 系统 设计 中 ,用 户 至 少 要 使 用 两 

空间 分 别 对 设备 的 Memory 空间 和 1/O 空间 进行 映射 。 

当 MPC85XX 处 理 器 工作 在 Host 模式 时 , Inbound Window 寄存 器 用 来 设置 系统 中 PCI 
Agent 设备 的 可 以 访问 的 物理 地 址 空间 。 

(6) DMA Register(DMA 控制 寄存 器 )。MPC85XX 处 理 器 提供 了 4 路 DMA 控制 器 可 以 
由 用 户 使 用 。E500 内 核 和 外 部 设备 都 可 以 启动 这 类 DMA 传送 ,E500 内 核 可 以 通过 填写 寄存 
佛 的 方式 启动 这 类 DMA 传送 ,而 外 部 设备 需要 对 MPC85XX 的 外 部 信号 DMA DREQ#， 
DMA _DACK# 与 DMA_ DDONE# 进 行 控制 以 启动 这 类 DMA 传送 。 

(7) TSEC Control and Status Register( 三 速 以 太 网 控制 状态 寄存 器 )。 MPC85XX 处 理 需 
中 可 以 支持 多 个 TSEC 设备 。MPC85XX 的 TSEC 的 编程 模式 与 CPM 中 的 功能 部 件 类 似 。 
对 TSEC 设备 的 访问 也 需要 通过 操作 BD 完成 。 

需要 注意 的 是 ,TSEC 控制 器 的 RxBD 和 TxBD 不 能 放 人 CPM 的 DPRAM 中 而 是 放 人 
DDR 中 。 这 样 设计 的 目的 一 是 因为 TSEC 控制 器 访问 CPM 内 部 的 DPRAM 的 速度 并 不 比 访 
问 DDR 的 速度 快 ;二 是 因为 CPM 的 DPRAM 是 由 E500 和 CPM 进行 访问 ,如 果 TSEC 也 对 
CPM 中 的 DPRAM 进行 访问 , 当 网 络 流量 过 大 时 将 会 对 E500 访问 CPM 造成 较 大 的 影响 ,从 
而 引起 一 些 不 可 预料 的 错误 。 

(8) 其 他 寄存 器 , 略 。 


4.1.3 L2 Cache 


在 ES00 内 核 中 不 包含 L2 Cache。 因 此 L2 Cache 的 实现 可 以 根据 处 理 器 的 特点 进行 设 
置 。MPC8540/8560/8541/8555 的 L2 Cache 大 小 为 256 KB, 采 用 8 路 组 相连 方式 。 在 这 些 处 
理 冀 中 ,256 KB 的 L2 Cache 可 以 完全 模拟 成 为 独立 的 SRAM ,由 处 理 器 进行 访问 ,也 可 以 划 
出 128KB 作为 L2 Cache,128KB 作为 SRAM。 

MPC8SXX 的 L2 Cache 采用 front-side 方式 。 其 中 front-side 总 线 是 指 芯 片 内 部 与 外 设 进 
行 连接 的 总 线 , 在 MPC8SXX 中 这 条 总 线 就 是 CCB 总 线 。 采 用 front-side bus 方式 是 指 L2 
Cache 与 front-side bus 总 线 进行 连接 。 

80 


与 front-side 总 线 相 对 ,在 有 的 处 理 器 系统 中 还 有 一 种 Cache 连接 方式 , 即 back-side 方式 。 
使 用 back-side 方式 进行 L2 Cache 连接 是 指 L2 Cache 连接 在 back-side 总 线 上 ,其 中 back-side 
总 线 是 处 理 器 内 核 与 Cache 进行 连接 的 专用 总 线 。 

back-side 总 线 的 频率 远 比 front-side 总 线 的 频率 高 ,因此 挂 接 在 back-side 总 线 的 Cache 访 
问 速度 快 。 但 是 采用 这 种 方式 的 Cache 在 进行 共享 一 致 尤其 是 与 外 设 DMA 操作 进行 存储 一 
致 性 时 ,在 设计 上 不 易 实 现 , 而 且 所 消耗 的 资源 相对 较 大 。 一 般 来 说 ,重视 运算 性 能 的 处 理 器 
中 在 连接 Cache 时 采用 了 back-side 方 式 , 而 在 一 些 相 对 较为 简单 的 处 理 需 中 采用 了 front-side 
方式 。 

MPC85XX 处 理 器 的 L2 Cache 连接 在 CCB 总 线 , 其 他 外 设 的 控制 硕 如 DDR 总 线 控制 大， 
PCI 总 线 控制 器 , TSEC, CPM 也 连接 在 这 条 总 线 上 。 这 种 连接 方式 比较 容易 实现 系统 的 
Cache 一 致 性 。 采 用 这 种 方式 的 Cache 一 般 采 用 通 写 方式 而 不 是 回 写 方式 进行 Cache 更 新 。 

因为 L2 cache 与 DDR 控制 器 都 在 CCB 总 线 中 ,如果 采 用 回 写 方式 进行 Cache 更 新 , 当 进 
行 数据 写 操作 时 ,首先 需要 通过 CCB 总 线 对 Cache 进行 写 操作 并 将 Cache 行 状态 设 为 modi- 
fied, 之 后 当 更 新 此 Cache 行 时 ,还 要 通过 CCB 总 线 将 更 新 的 数据 回 写 到 DDR 中 。 因 此 采用 
front-side 方式 的 L2 Cache 采用 通 写 方式 进行 Cache 更 新 反而 可 以 提高 CCB 总 线 的 利用 率 。 

MPC85XX 中 L2 Cache 的 状态 也 相对 简单 ,一 共有 Valid、Locked 和 Stale 三 种 状态 ,分 别 
表示 当前 Cache 行 是 否 有 效 锁定 被 改写 。 对 L2 Cache 的 更 新 也 使 用 PLRU 算法 。 


4.2 ”基于 E500 内 核 的 多 处 理 器 


本 章 所 介绍 的 多 处 理 器 是 指 在 前 端 总 线 (Core Complex Bus,CCB) 挂 接 多 个 E500 内 核 的 
多 处 理 器 。 目 前 Freescale 尚 没有 超过 2 个 E500 内 核 的 处 理 紫 。 但 是 在 不 远 的 将 来 ,多 核 处 
理 禹 ,如 4 核 .8 核 处 理 右 会 得 到 越 来 越 多 的 应 用 。 

典型 的 对 称 多 处 理 器 (Symmetric Mutliple Processor, SMP) 绪 构 如 图 4-4 所 示 。 在 这 个 系 
统 中 四 个 E500 内 核 通 过 前 端 总 线 CCB 连接 。 其 中 每 个 E500 内 核 具 有 独立 的 Ll Cache 和 
L2 Cache, 显然 这 种 结构 并 非 多 核 处 理 器 的 最 优 结构 ,但 本 书 的 目的 仅 是 利用 此 结构 对 多 核 系 
统 进 行 简要 说 明 。 

如 图 4-4 所 示 , 此 SMP 处 理 器 的 所 有 的 外 设 挂 接 在 前 端 总 线 CCB 上 ,由 四 个 E500 内 核 共 
享 ,每 一 个 E500 内 核 共 享 一 个 DDR 控制 器 ,因此 多 个 处 理 器 内 核 共 享 同 一 个 主人 存储 器 。 这 使 得 
基于 SMP 处 理 器 的 操作 系统 可 以 相对 容易 ,高速 地 在 各 个 处 理 器 之 间 传 递 信 息 。 此 外 SMP 处 
理 器 还 共享 一 个 中 断 控制 器 PIC, 多 个 处 理 器 之 间 还 可 以 通过 处 理 右 间 的 中 断 进 行 信 息 交 换 。 

SMP 结构 的 处 理 器 由 于 编程 使 用 和 管理 的 简便 性 ,得 到 了 广泛 的 应 用 。 但 是 由 于 系统 
总 线 带宽 的 限制 ，SMP 结构 不 能 支持 太 多 的 处 理 器 。 太 多 的 处 理 器 共享 系统 总 线 时 ,将 会 降 
低 系 统 的 效率 。 

在 一 个 典型 的 多 机 系统 ,如 NUMA(Non Uniform Memory Access) 结 爸 的 大 规模 并 行 处 理 
器 (Massive Parallel Processor, MPP) 中 ,SMP 结构 的 处 理 器 通常 会 作为 一 个 基本 人 处理 退 单 元 
(Processor Element, PE) 组 成 一 个 多 机 系统 。 

在 多 机 系统 中 ,有 两 个 永恒 的 话题 :一 个 是 多 处 理 器 间 通 信 的 延 时 与 带宽 ,为 一 个 是 系统 
的 可 编程 性 。MPP 处 理 器 为 提高 通信 的 带宽 减少 通信 延 时 ,使 用 了 惊人 的 代价 。 而 提高 通信 
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图 4-4 基于 E500 内核 的 对 称 多 处 理 器 结构 图 


延 时 的 第 一 步 就 是 实现 SMP 间 内 存 访问 的 同步 和 Cache 的 共享 一 致 性 。E500 内 核 中 在 指令 
和 系统 总 线 级 对 这 些 同 步 和 一 致 性 进行 了 必要 的 支持 。 


4.2.1 SMP 的 同步 机 制 


SMP 的 同步 包括 数据 同步 .存储 管理 同步 ,原子 操作 和 锁 机 制 。 数 据 同步 主要 包括 SMP 
的 Cache 一 致 性 协议 和 对 共享 数据 的 访问 。 

在 E500 内 核 中 , 当 HIDI 寄存 器 中 ABE 位 为 1 时 将 使 能 地 址 广播 操作 。 此 时 dcbst， 
dcblc,icblc,icblc,dcbf,mbar,msync,tbsync,tlbivax,icbi 指令 将 在 CCB 总 线 上 进行 广播 ,将 本 
处 理 大 内 核 中 发 生 的 事件 通知 给 其 他 在 CCB 总 线 上 的 处 理 器 内 核 。 

SMP 一 般 使 用 原子 操作 或 者 自 旋 锁 对 共享 数据 进行 访问 。E500 内 核 支持 两 条 用 于 原子 
操作 和 锁 操 作 的 指令 ,分别 是 lwarx 和 stwcx. 指令 。 这 两 条 指令 成 对 出 现 , 用 来 支持 原子 操 
作 和 锁 操 作 。 为 支持 这 些 操作 ,E500 内 核 的 CCB 总 线 中 包含 一 个 RESERVE 状态 位 和 RE- 
SERVE 地 址 。 在 多 处 理 器 系统 中 ,这 个 RESERVE 位 和 RESERVER 地 址 可 以 通过 CCB 总 线 
进行 同步 并 保证 其 一 致 性 。CCB 总 线 还 支持 存储 器 原子 访问 周期 ,如 read atomic 和 RWITM 
atomic 总 线 周 期 。 

1. lwarx 和 stwcx. 指令 

lwarx 和 stwcx. 指令 主要 用 来 实现 原子 操作 和 锁 操 作 。 

lwarx 指令 的 格式 为 "lwarx rD,rA,rB” ,其 指令 描述 如 下 所 示 : 


fraA=0thena<0 

else a <— (rA) 
EA=<-a+ TB 
RESERVE <— 1 
RESERVE ADDR <— read addr(EA) 
mD < (32)0 || MEM(EA, 4) 
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lwarx 指令 的 执行 流程 如 下 所 示 : 
(1) 首先 需要 计算 当前 lwarx 指令 使 用 的 有 效 地 址 EA ,该 有 效 地 址 为 rA+zrB( 或 者 rB)。 
(2) 然后 把 E500 内 核 中 的 RESERVE 位 置 1 ,并 将 该 指令 访问 的 有 效 地 址 EA 对 应 的 物 
理 地 址 放 人 RESERVER _ ADDR 中 ,将 rA+rB( 或 者 吗 ) 数 据 放 入 zD 中 ， 
lwarx 指令 对 通用 寄存 器 tD 的 影响 与 lwz 指令 完全 相同 ,只 是 该 指令 会 将 E500 内 核 中 的 
RESERVE 位 和 RESERVER _ADDR 寄存 器 进行 设置 。 该 指令 的 类 文 含义 为 Load Word and 
Reserve [Indexed。 其 中 的 “Reserve Indexed "就 是 指 对 RESERVE 和 RESERVER _ ADDR 进行 
设置 。 
stwcx, 指令 的 格式 为 "stwcx. TS,rA,rB” ,其 指令 描述 如 下 所 示 : 
irA = 0thena0 
else a <— (IA) 
EA=<-a+t 坦 
if RESERVE then 
if RESERVE_ ADDR = read _ addr(EA) then 
MEM(EA, 4) <— 1rS32,63 
CRO <— 0b00 || 0bl || XER。 
else 
U <— undefined 1 一 bit value 
fu then MEM(EA, 4) < rSr3.63] 
CRO <- 0b00 11 0bu || XER。 
RESERVER < 0 
else 
CRO <— 0b00 || 0b0 || XER,, 


由 上 可 知 stwcx. 指令 的 执行 结果 与 lwarx 指令 结果 的 执行 有 关 

(1) stwcx, 指令 首先 计算 当前 stwcx. 指令 使 用 的 有 效 地 址 EA, 该 有 效 地 址 为 rA+rB( 或 
者 ?B)。 

(2) 然后 该 指令 对 RESERVE 位 进行 检查 ,如 果 RESERVE 位 不 为 1, 即 在 该 指令 之 前 程 
序 没有 执行 过 lwarx 指令 ,该 指令 将 CR 寄存 器 的 CR0 字段 的 EQ 位 清 零 。 此 时 该 指令 将 不 
对 有 效 地 址 EA 进行 任何 操作 。 

(3) 如 果 RESERVE 位 为 1,stwcx. 指令 将 对 RESERVE _ADDR 寄存 器 进行 进一步 检 
查 。 如 果 在 RESERVE _ADDR 寄存 器 与 有 效 地 址 EA 对 应 的 物理 地 址 相同 , 则 将 存放 在 rS 
寄存 器 中 的 数据 写 人 EA 中 ;如 果 在 RESERVE _ADDR 寄存 器 与 有 效 地 址 EA 对 应 的 物理 地 
址 不 相同 , 则 不 将 rS 中 的 数据 写 人 EA 中 。 

(4) 最 后 该 指令 将 RESERVE 位 清 零 

系统 软件 可 以 使 用 lwarx 和 stwcx. 指令 构建 原子 操作 和 SMP 中 各 用 的 目 旋 锁 。 

2. 原子 操作 

Linux PowerPC 可 以 使 用 lwarx 和 stwcx, 指令 实现 某 些 原 子 操作 。 

首先 lwarx 指令 将 要 进行 更 新 的 数据 读 出 ,同时 将 RESERVE 位 和 RESERVE_ADDR 寄 
存 器 初始 化 ,再 将 更 新 的 数据 进行 各 种 运算 操作 ,最 后 使 用 stwcx. 指令 将 运算 结 采 写 回 。 
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如 果 stwcx. 指令 执行 成 功 . 则 EQ 位 为 1 ,表示 在 lwarx 指令 和 stwcx, 指令 之 间 的 操作 并 
没有 和 被 打破 ,本 次 原子 操作 成 功 ;否则 将 重新 使 用 lwarx 指令 对 RESERVE 位 和 RESERVE 
ADR 寄存 器 进行 初始 化 ,然后 对 该 数据 继续 更 新 ,直到 stwex. 指令 成 功 写 人 数据 。E500 内 
核 中 原子 操作 并 不 是 一 条 指令 而 是 通过 查询 来 实现 。 常用 的 原子 操作 有 Fetch and add /store,， 
Test and set 等 。 

(1) Fetch and Store 原子 操作 


loop: lwarx r5, 0, r3 
stwex. r4, 0, 3 
bne loop 
首先 将 存放 在 寄存 器 r5 中 的 数据 保存 到 寄存 器 r3( 该 寄存 器用 来 存放 临界 地 址 ) .同时 将 
RESERVE 位 置 1 并 将 RESERVE _ ADR 寄存 器 置 为 寄存 器 r3 中 的 数值 . 
然后 使 用 stwcx. 指令 将 寄存 器 14 的 数值 存放 到 临界 地 址 中 。 如 果 stwcx. 指令 没有 将 数 
据 存放 到 临界 地 址 中 , CR 寄存 器 CR0 字段 的 EQ 位 为 0, 此 时 需要 重新 使 用 lwarx 指令 对 
RESERVE 位 和 RESERVE _ADR 寄存 器 进行 重 置 , 然 后 再 对 此 临界 区 域 进行 操作 ,直到 成 功 
地 将 数据 写 入 临界 地 址 中 。 当 EQ 位 为 1 ,表示 stwex. 指令 成 功 的 将 数据 写 入 内 存 中 ,并 完成 
Fetch and Store 原子 操作 
对 于 多 内 核 处 理 器 ,有 可 能 多 个 内 核 都 执行 Fetch and Store 原子 操作 ,如 果 其 他 内 核 执行 
stwcx. 指令 有 可 能 会 改变 RESERVE 位 和 RESERVE ”ADDR, 从 而 导致 stwex. 指令 不 会 成 
功 地 将 数据 写 人 到 指定 的 临界 区 域 中 。 
当 两 个 处 理 器 PO 和 Pl 同时 进行 Fetch and Store 原子 操作 时 ,有 可 能 出 现 一 个 极端 情况 ， 
如 图 4-5 所 示 。 


Stwex, ri4.0. 13 loop:lwars rs.0.r3 
i A 
bne loop stwex T4073 
bne loop 


图 4-5 Fetch and Store 原子 操作 


1) 在 time stampl 时 刻 ,P0 内 核 执 行 lwarx 指令 将 E500 内 核 的 RESERVE 位 置 1 ,同时 
将 RESERVE_ADDR 寄存 器 置 为 r3 寄存 器 中 存放 的 物理 地 址 ， 

2) 在 time stampl 时 刻 和 time stamp2 时 刻 之 间 ,P2 内 核 也 开始 执行 lwarx 指令 将 E500 
内 核 的 RESERVE 位 置 1, 同 时 将 RESERVE_ADDR 寄存 器 置 为 r3 寄存 器 中 存放 的 物理 地 
址 - 为 简化 问题 ,我 们 假定 PO 和 Pl 内 核 中 存放 的 r3 寄存 器 内 容 相 同 . 

3) 在 time stamp2 时 刻 ,P0 内 核 执行 stwex. 指令 将 数据 写 人 到 指定 的 临界 区 域 中 ,同时 
将 RESERVE 位 置 0 和 CR 寄存 器 CR0 字段 的 EQ 位置 1。 

4) 在 time stamp2 时 刻 和 time stamp3 时 刻 之 间 ,P1 内 核 也 将 执行 stwex. 指令 ,但 是 此 
时 RESERVE 位 已 经 为 0, 因 此 该 指令 不 能 将 数据 写 入 到 指定 的 临界 区 域 中 ,此 时 CR 寄存 器 
CR0 字段 的 EQ 位 将 被 置 0. 

5) 在 time stamp3 时 刻 ,P0 内 核 将 执行 bne loop 指令 ,此 时 因为 P0 内 核 的 EQ 为 1, 该 转 
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移 指令 将 不 会 做 转移 操作 ,P0 内 核 将 完成 Fetch and Store 原子 操作 。 

6) 在 time stamp3 时 刻 之 后 ,Pl 内 核 也 将 执行 bne loop 指令 ,此 时 因为 Pl 内 核 的 EQ 为 
0 ,bne loop 指令 将 转移 到 loop 标签 处 .继续 执行 lwarx 指令 ,然后 再 使 用 stwcx. 指令 将 数据 写 
人 到 临界 区 域 中 . 

E500 内 核 就 是 使 用 这 类 指令 来 完成 原子 操作 。 实 际 上 所 有 支持 SMP 结构 的 处 理 器 内 核 
都 会 支持 这 一 类 指令 。 在 MIPS 处 理 器 中 ,也 有 一 对 指令 分 别 是 ll 和 sc 指令 完成 类 似 的 原子 
操作 : 

(2) Fetch and Add 原子 操作 


loop: |warx r5, 0, r3 
add 0, r4, 1 
stwex. tO, 0, r3 
bne loop 

Fetch and Add 操作 与 Fetch and Stroe 原子 操作 类 似 . 只 是 在 lwarx 和 stwex. 指令 之 间 加 
人 了 一 条 add 指令 。 事 实 上 ,可 以 在 这 两 条 指令 之 间 加 入 一 些 其 他 的 指令 ,如 与 ,或 等 等 其 他 
指令 ,以 生成 Fetch and And, Fetch and Or 等 等 操作 . 

使 用 lwarx 和 stwcx. 实现 原子 操作 需要 将 程序 放 人 lwarx 和 stwcx, 指令 之 间 ,并 将 结果 
通过 stwcx. 指令 存 人 。 采用 这 种 方法 可 以 实现 一 些 简 单 的 原子 操作 ,这 些 原子 操作 一 次 只 能 
通过 stwex. 担 令 对 一 个 单个 临界 数据 进行 原子 操作 .对 于 一 个 较 大 的 临界 区 进行 访问 时 , 系 
统 软件 需要 使 用 锁 操 作 完 成 . 

3. 自 旋 锁 

在 多 人 处 理 器 内 核 中 运行 的 操作 系统 ,如 SMP 结构 的 处 理 需 ,需要 使 用 目 旋 锁 访问 临界 区 
域 . 在 Linux 系统 中 , 当 使 能 preemptible 功能 时 ,运行 在 单 处 理 器 内 核 中 的 操作 系统 也 需要 
使 用 自 旋 锁 对 临界 数据 区 域 进行 保护 。 

当 Linux 系统 使 能 preemptible 功能 时 ,进程 在 Linux 内 核 中 执行 时 ,调度 程序 可 以 将 当前 
进程 切换 到 其 他 进程 中 运行 ,此 时 其 他 进程 可 能 会 对 临界 区 域 进行 操作 ,从 而 有 可 能 破坏 存放 
在 临界 区 域 中 的 数据 . 因此 如 果 系 统 程序 员 对 Linux 内 核 进行 修改 开发 ,二 要 保证 代码 可 以 
支持 preemptible 功能 时 .这些 代码 必须 需要 使 用 自 旋 锁 将 临界 数据 进行 保护 . 

Linux 系统 使 用 spin _ lock 类 函数 实现 自 旋 锁 .在 . /includeAinux/spinlock.h 文件 中 包含 
了 一 系列 宏 定 义 , 如 spin _ lock,spin lock _ irqsave,spin _ lock _ irg 实现 Linux 系统 的 目 旋 锁 ， 
spin ”lock 类 函数 的 实现 与 preemptible 功能 紧密 相连 

在 Linux PowerPC 中 ,spin _ lock 函数 最 终 调用 . /include/asm-powerpce 目录 的 spinlock.h 
文件 中 的 _ spin _ trylock 函数 ,在 这 个 函数 中 使 用 了 lwerx 和 stwcx. 指令 实现 自 旋 锁 的 功能 
Linux 系统 对 临界 区 域 的 访问 如 图 4-6 所 示 。 

多 处 理 器 系统 对 临界 区 域 进行 访问 时 ,必须 使 用 自 旋 锁 对 临界 数据 进行 访问 。 在 单 处 理 
器 系统 中 ,如 果 操 作 系统 支持 preemptible, 则 对 临界 数据 的 访问 也 需要 使 用 自 旋 锁 。 注 意 ,在 
Linux 系统 中 ,如 果 一 个 进程 使 用 了 自 旋 锁 对 临界 数据 进行 保护 后 ,该 进程 不 能 被 其 他 进程 
失 庙 。 

目 旋 锁 实 际 上 是 一 个 被 lwcrx 和 stwcx. 指令 保护 起 来 的 数据 。 目 旋 锁 为 1 时 表示 已 对 临 
界 数据 段 加 锁 , 为 0 时 表示 临界 数据 段 没 有 加 锁 。 
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图 4-6 使 用 自 旋 锁 对 临界 区 域 进行 访问 


假设 系统 中 使 用 lock 和 unlock 函数 实现 对 自 旋 锁 的 加 锁 和 解锁 操作 。 其 中 lock (int 
lock) 因数 将 lock 参数 置 1 ,而 unlock(int lock) 国 数 将 lock 参数 置 0。 自 旋 锁 Lock 和 unlock 的 
汇编 实现 如 下 所 示 。 其 中 寄存 器 r3 中 保存 lock 函数 和 unlock 函数 的 输入 参数 lock。 


lock: 
iiiD, 1 
lock _ loop: 
lwarx r4, 0, r3 
cmpwi r4, 0 
bne lock loop 
stwew. tO, 0, 3 
bne lock _ loop 
1SYmC 
(1) 这 段 程序 首先 将 数据 1 保存 在 寄存 器 0 中 ,然后 使 用 lwarx 指令 将 存放 在 寄存 器 r3 
中 的 lock 参数 暂时 存放 在 寄存 器 r4 中 。 
(2) 对 存放 在 寄存 器 r4 中 的 数据 进行 判断 ,如 果 该 值 为 0, 表示 lock 参数 没有 被 其 他 处 理 
器 中 运行 的 进程 使 用 ,bne 指令 将 不 进行 跳 转 。 如 果 该 值 不 为 0, 则 表示 其 他 处 理 器 正在 使 用 
该 目 旋 锁 ,因此 当前 进程 必须 对 存放 在 寄存 器 r4 中 的 值 反 复查 询 , 直到 该 值 为 0 后 , 即 其 他 处 
理 奉 释放 了 该 目 旋 锁 后 才能 够 继续 执行 。 
(3) 使 用 stwcwx. 指令 试图 将 数值 1" 存放 在 寄存 器 r3 中 ,即将 该 自 旋 锁 加 锁 。 
(4) 如 未 没有 加 锁 成 功 , 则 跳 转 到 lock _ loop 标签 处 ,继续 对 自 旋 锁 进行 加 锁 , 否则 执行 
isync 指令 进行 指令 同步 ,完成 整个 加 锁 过 程 。 
unlock 图 数 的 汇编 实现 如 下 。 
unlock: msync 
im 和 ,0 
stw OD, 0(r3) 
解锁 的 过 程 较为 简单 ,只 需要 在 存储 器 同步 指令 后 ,简单 地 将 自 旋 锁 置 为 0 即 可 . 
处 理 器 使 用 自 旋 锁 对 临界 数据 段 进 行 访问 时 ,务必 快速 完成 ,以 保证 系统 的 效率 。 在 图 
4-6 所 示 的 例子 中 ,处理 器 1 在 没有 获得 自 旋 锁 之 前 ,需要 不 断 地 通过 lwerx 指令 从 内 存 中 读 
取 数 据 , 不 断 地 将 RESERVE 位 和 RESERVE 地 址 进行 重 置 ,这 些 操作 不 仅 会 占用 处 理 器 的 
运行 时 间 ,而 且 会 占用 CCB 总 线 的 带宽 。 
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4.2.2 ”SMP 结构 处 理 器 的 Cache 共享 一 致 性 


SMP 结构 处 理 器 一 般 采 用 总 线 监听 法 实现 Cache 共享 一 致 性 。Cache 共享 一 致 性 一 般 是 
指 在 SMP 结构 处 理 器 中 共享 L1 Cache。 因 为 不 同类 型 的 SMP, 其 L2 Cache 的 设计 不 尽 相 同 。 
有 时 在 SMP 结构 处 理 器 中 的 多 个 处 理 器 内 核 共 享 一 个 L2 Cache, 有 时 每 一 个 处 理 器 内 核 都 有 
各 目的 L2 Cache。 

MESI 协议 是 目前 最 流行 的 基于 总 线 监听 法 的 Cache 共享 一 致 性 协议 。 与 基于 单 处 理 带 
内 核 的 Cache 一 致 性 相 比 ,多 处 理 器 内 核 的 Cache 一 致 性 的 实现 较为 复杂 。 基 于 多 处 理 内 核 
的 MESI 协议 增加 了 许多 内 容 ,状态 转化 也 较为 复杂 。 

在 多 处 理 器 内 核 中 ,MESI 四 位 的 定义 如 下 : 

e@ M(Modified) 位 。M 位 为 1 时 表示 L1 Cache 行 中 包含 的 数据 无 效 , 它 既 不 在 本 处 理 器 

内 核 的 LI1 Cache 中 ,也 不 在 其 他 处 理 器 内 核 的 LI1 Cache 中 。 当 处 理 器 对 这 个 L1 Cache 
行进 行 操作 时 ,必然 会 导致 Cache 失效 ,从 而 引发 系统 总 线 的 读 写 周 期 ,将 Cache 行 中 
数据 与 内 存 中 的 数据 同步 。 
e E(Exclusive) 位 。E 位 为 1 时 表示 LI Cache 行 中 包含 的 数据 有 效 ,而 且 该 数据 仅 在 本 处 
理 器 内 核 中 ,而 在 其 他 处 理 器 内 核 的 Ll Cache 中 没有 副本 。 

@ S(Shared) 位 。S 位 为 1 表示 Ll1 Cache 行 中 包含 的 数据 有 效 ,而 且 在 本 处 理 豆 内 核 和 至 
少 在 其 他 处 理 器 内 核 中 有 一 个 副本 。 

e@ I(Invalid) 位 。I 位 为 1 表示 LIL Cache 行 中 没有 有 效 数据 ,该 L1 Cache 行 没有 使 能 。 
E500 内 核 使 用 PLRU 算法 对 Cache 行进 行 奉 换 时 ,将 首先 蔡 换 状态 为 Invalid 的 
Cache 行 。 
MESI 协议 定义 了 四 种 状态 以 保证 Cache 的 共享 一 致 性 。 分 别 为 Invalid,Shared Unmodi- 
fied, Exclusive Modified, Exclusive Unmodified 状态 。 
e@ Invalid 状态 。Cache 行 处 于 Invalid 状态 表示 当前 Cache 行 的 MESI 中 只 有 I 位 有 效 , 此 
时 当前 Ll Cache 行 没有 被 使 用 。 

e@ Shared Unmodified 状态 。Cache 行 处 于 这 种 状态 时 ,MESI 中 只 有 S 位 有 效 , 表 示 当 前 
L1 Cache 行 中 的 数据 被 多 个 处 理 器 内 核 共享 。 

®@ Exclusive Modified 状态 。Cache 行 处 于 这 种 状态 时 ,MESI 中 位 和 M 位 有 效 ,表示 当 
前 L1 Cache 行 的 数据 已 经 被 改写 ,但 是 在 其 他 处 理 器 内 核 中 没有 副本 。 

e@ Exclusive Unmodified 状态 。Cache 行 处 于 这 种 状态 时 ,MESI 中 下 位 有 效 , 表 示 此 Ll 
Cache 行 中 的 数据 有 效 。 

处 理 器 内 核对 Cache 进行 操作 时 ,Cache 行 的 四 种 状态 将 进行 转换 。 本 市 假定 用 户 使 用 
回 写 方式 管理 L1 Cache。 基 于 MESI 协议 的 LI1 Cache 行 状态 的 转换 如 图 4-7 所 示 。 

当 处 理 器 内 核 访问 存储 器 时 发 生 读 写 命中 (Read/Write Miss), 读 号 失效 (Read/Write 
Hit) 或 者 处 理 器 执行 使 无 效 命令 (Invalidate Command) 等 操作 时 ,将 引发 Cache 行 的 状态 
转换 。 

为 简便 起 见 ,我 们 假定 一 个 处 理 器 系统 由 四 个 内 核 组 成 ,当前 进行 存储 器 访问 的 处 理 需 内 
核 称 为 内 核 A, 而 其 他 处 理 器 内 核 分 别 被 称 为 内 核 B,C 和 D。 并 一 次 分 析 发 生 Cache 读 命中 、 
读 失 效 、 写 命中 和 写 失效 情况 下 ,Cache 行 状态 的 转换 。 
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图 4-7 基于 MESI 协议 的 Cache 行 状态 转换 


1. Cache 的 读 命中 与 读 失效 

在 多 核 系统 中 ,内 核 A 进行 存储 器 读 操作 时 ,首先 会 访问 内 核 A 中 的 L1 Cache。 内 核 A 
访问 Cache 时 有 可 能 会 出 现 两 种 情况 :一 种 是 访问 的 数据 在 Cache 中 命中 ; 另 一 种 是 失效 。 在 
多 核 系 统 中 ,Cache 读 命中 的 概率 小 于 在 单 核 系统 中 读 命 中 的 概率 。 但 是 这 个 概率 也 相当 高 。 

如 有 林内 核 A 进行 存储 器 读 操作 时 ,被 访问 的 数据 在 Cache 中 命中 ,此 时 该 Cache 行 的 状态 
或 者 为 Exclusive Unmodified 或 者 为 Shared Unmodified。 在 这 种 情况 下 ,内核 A 将 从 该 Cache 
行 中 直接 获得 数据 ,而 不 需要 启动 外 部 总 线 周 期 ,也 不 需要 改变 该 Cache 行 的 状态 。 

当 内 核 A 进行 存储 器 读 操 作 时 ,被 访问 的 数据 没有 在 某 个 Cache 行 中 命中 。 此 时 需要 根 
据 Cache 行 状态 分 别 进行 讨论 。 

(1) 如 采 当 前 Cache 行 的 状态 为 Invalid, 内 核 A 将 启动 外 部 总 线 周期 从 存储 体系 中 获得 
该 数据 ,同时 将 更 新 相应 的 Cache 行 ,并 将 该 Cache 行 的 状态 更 改 为 Exclusive Unmodified。 

(2) 如 果 当 前 Cache 行 的 状态 为 Exclusive Modified, 此 时 内 核 A 对 读 失 效 时 的 处 理 较为 
复杂 。 当 发 生 读 失 效 时 ,处 理 器 不 仅 会 改变 内 核 A 的 Cache 状态 ,也 可 能 会 影响 其 他 内 核 的 
Cache 状态 。 

Cache 行 的 状态 为 Exclusive Modified,Cache 读 失 效 处 理 需 要 分 以 下 几 种 情况 进行 讨论 。 
当 发 生 此 类 读 失 效 之 后 ,内 核 A 的 Cache 控制 器 将 首先 发 出 总 线 监听 命令 (snoop request) 到 进 
行 Cache 共享 的 内 核 B,C 和 D。 

(1) 如 果 只 有 内 核 B 中 的 Cache 中 包含 内 核 A 所 需 的 数据 副本 ,而 且 在 内 核 B 中 该 Cache 
行 的 状态 为 Shared Unmodified, 内核 B 将 通知 内 核 A 当前 需要 访问 的 数据 已 经 在 系统 总 线 中 
“ 锌 共享 "。 此 时 内 核 A 将 启动 外 部 总 线 周 期 , 读 取 数据 并 更 新 内 核 A 的 Cache 行 ,并 将 内 核 
人 A 的 Cache 行 的 状态 更 改 为 Shared Unmodified。 

(2) 如 采 只 有 内 核 B 的 Cache 中 包含 内 核 A 所 需 的 数据 副本 ,而 且 在 内 核 B 中 Cache 行 
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的 状态 为 Exclusive Unmodified, 内 核电 将 通知 内 核 A 当前 需要 访问 的 数据 在 系统 总 线 中 “ 具 
有 备份 ”", 同 时 将 内 核 B 的 Cache 行 的 状态 由 Exclusive Unmodified 改变 为 Shared Unmodified。 
之 后 ,内 核 A 将 启动 外 部 总 线 周 期 , 读 取 数据 更 新 Cache 行 ,并 将 当前 Cache 行 的 状态 更 改 为 
Shared Unmodified。 在 有 的 多 核 处 理 器 中 ,内 核 A 可 以 不 从 内 存 体系 中 读 取 数 据 , 而 是 直接 将 
内 核 B 中 的 数据 备份 传递 给 内 核 A。 

(3) 如 果 有 一 个 内 核 ,如 内 核 刀 中 的 Cache 中 包含 内 核 A 所 需 的 数据 副本 ,但 是 内 核 B 的 
Cache 行 状态 为 Exclusive Modified 时 ,内 核 B 将 会 中 止 内 核 A 发 起 的 总 线 监 听命 令 , 并 从 内 
存 体 系 中 读 取 数据 以 更 新 内 核 B 的 Cache, 并 将 内 核 B 的 Cache 行 状态 更 新 为 Shared Unmodi- 
fied, 同 时 将 从 内 存 系统 中 获得 的 数据 传递 给 内 核 A, 并 将 内 核 A 相应 的 Cache 行 状态 更 改 为 
Shared Unmodified。 

(4) 如 果 在 当前 处 理 器 的 其 他 内 核 , 如 内 核 B,C,D 中 都 没有 内 核 A 所 需 的 数据 副本 ,内 
核 A 将 从 内 存 体 系 中 读 取 数 据 以 更 新 Cache 行 ,并 将 当前 Cache 行 的 状态 更 改 为 Exclusive 
Unmodified。 

2. Cache 的 写 命中 与 写 失效 

与 存储 希 读 操作 类 似 , 在 多 核 系 统 中 , 当 内 核 A 进行 存储 器 写 操作 时 ,首先 会 访问 Cache。 
访问 Cache 时 有 可 能 出 现 两 种 情况 :一 种 是 访问 的 数据 在 Cache 中 命中 ; 另 一 种 是 失效 。 与 存 
储 器 的 该 操作 相 比 ,进行 存储 器 写 操作 时 ,Cache 的 处 理 较为 复杂 。 

(1) 内 核 A 访问 存储 器 时 ,发生 了 Cache 写 命中 , 则 表示 内 核 A 需要 更 新 的 数据 在 内 核 A 
的 Cache 行 中 命中 。 此 时 需要 根据 当前 Cache 行 的 状态 ,分 以 下 几 种 情况 进行 讨论 。 

1) 如 果 内 核 A 的 Cache 行 的 状态 为 Shared Unmodified 时 ,内 核 A 的 Cache 控制 器 将 发 
出 总 线 写 无 效 命令 (invalidate) 到 内 核 B,C 和 DD, 将 内 核 B,C 和 DD 中 有 此 Cache 行 副 本 的 
Cache 行进 行 写 无 效 操作 。 

如 采 内 核 B,C 和 D 的 Cache 中 具有 内 核 A 的 Cache 副本 , 则 其 相应 的 Cache 行 状 态 为 
Shared Unmodified。 此 时 写 无 效 命令 将 会 把 在 内 核 B,C 或 者 DD 中 的 Cache 行 状态 更 改 为 Ex- 
clusive Modified , 同时 内 核 A 将 数据 写 人 内核 A 相应 的 Cache 行 中 ,然后 将 内 核 A 的 Cache 行 
状态 更 改 为 Exclusive Modified。 

2) 如 果 内 核 A 的 Cache 行 的 状态 为 Exclusive Unmodified, 内核 A 直接 将 数据 写 入 内 核 -A 
的 相应 Cache 行 中 ,并 将 此 Cache 行 状态 更 改 为 Exclusive Modified ,而 不 需要 发 出 总 线 写 无 效 
命 令 o 

3) 如 果 内 核 A 的 Cache 行 的 状态 为 Exclusive Modified ,内 核 A 直接 将 数据 写 人 内 核 A 的 
相应 Cache 行 中 ,不 需要 改变 此 Cache 行 的 状态 ,也 不 需要 发 出 总 线 写 无 效 命令 。 

(2) 当 内 核 A 访问 存储 器 时 ,发 生 了 Cache 写 失效 ,表示 内 核 A 需要 更 新 的 数据 不 在 内 核 
A 的 Cache 行 中 。 此 时 ,内 核 A 的 Cache 控制 器 将 发 出 RWITM(Read with intent to modify) 
命令 通知 内 核 B,C 和 D 进行 Cache 一 致 性 处 理 。 

1) 如 果 内 核 B,C 或 者 D 中 的 一 个 内 核 ,如 内 核 B 的 Cache 行 中 包含 内 核 A 所 需 更 新 的 
数据 副本 ,此 时 其 Cache 行 的 状态 为 Exclusive Unmodified。 

内 核 A 的 RWITM 命令 将 内 核 B 的 Cache 行 状态 更 改 为 Invalid。 同 时 将 内 核 A 将 根据 
回 写 算法 ,首先 将 内 核 A 的 Cache 进行 Cache 替换 ,并 将 相应 的 数据 写 人 LI1 Cache, 然后 将 内 
核 A 的 Cache 行 状态 更 改 为 Exclusive Modified。 
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2) 当 其 他 内 核 B,C 和 了 D 中 的 有 一 个 或 者 多 个 内 核 的 Cache 中 包含 内 核 A 所 需 更 新 的 数 
据 一 个 或 者 多 个 副本 ,其 Cache 行 中 的 状态 为 Shared Unmodified。 

内 核 A 的 RWITM 命令 将 这 些 内 核 的 Cache 行 的 状态 都 更 改 为 Invalid, 同 时 根据 回 写 算 
法 ,首先 将 内 核 A 的 Cache 进行 Cache 替换 ,并 将 相应 的 数据 写 人 L1 Cache, 然 后 将 内 核 A 的 
Cache 行 状 态 更 改 为 Exclusive Modified。 

3) 当 其 他 内 核 ,如 内 核 B 中 的 Cache 包含 内 核 A 所 需 更 新 的 数据 副本 ,但 是 内 核 B 的 
Cache 行 的 状态 为 Exclusive Modified 时 ,内 核 B 首先 需要 将 此 Cache 行 的 数据 回 写 到 内 存 中 ， 
之 后 再 将 此 Cache 行 中 的 状态 更 改 为 Invalid。 同 时 将 内 核 A 将 根据 回 写 算法 ,首先 将 内 核 A 
的 Cache 行进 行 蔡 换 ,并 将 相应 数据 写 人 L1 Cache, 同时 将 内 核 A 的 Cache 行 状态 更 改 为 Ex- 
clusive Modified。 

在 发 生 读 写 失效 时 ,使 用 MESI 协议 进行 Cache 共享 一 致 性 的 处 理 较为 复杂 。 然 而 MESI 
协议 仅 规 定 了 在 进行 Cache 一 致 性 处 理 时 ,在 各 个 处 理 器 内 核 的 Cache 的 状态 转移 ,在 一 个 实 
际 的 系统 中 ,多 核 的 Cache 一 致 性 可 能 比 本 书 描述 的 过 程 还 要 复杂 。 

有 的 MPP 系统 还 采用 了 DASH 法 , 即 目录 法 结构 维护 全 机 的 Cache 共享 一 致 性 模式 ,对 
此 感 兴趣 的 读者 ,可 以 阅读 Daniel Lenoski, James Laudon 等 人 的 论文 “The DASH Prototype: 
Implementation and Performance 以 了 解 DASH 的 详细 结构 ,本 书 不 对 此 进行 描述 。 


4.3 大 端 与 小 端 


“站 模式 "(Endian) 源 自 斯 威夫 特写 的 《 格 列 佛 游记 》。 这 本 书 根据 将 鸡蛋 斋 开 的 方法 不 
同 ,把 人 分 为 两 类 。 从 圆 头 开 始 敲 鸡蛋 的 人 被 称 为 Big Endian, 从 尖 头 开始 斋 鸡 蛋 的 人 被 称 为 
Littile Endian。 小 人 国 的 内 战 就 源 于 吃 鸡蛋 时 是 究竟 从 大 头 敲 开 还 是 从 小 头 斋 开 。 在 计算 机 
业 Big Endian 和 Little Endian 也 几乎 引起 一 场 战争 。 

在 计算 机 业界 , Endian 表示 数据 在 存储 器 中 的 存放 顺序 。 如 果 将 一 个 32 位 的 整数 
0x12345678 存放 到 一 个 整 型 变量 (int) 中 ,这 个 整 型 变量 采用 大 端 和 小 端 模式 在 内 存 中 的 存储 
位 置 如 表 4-1 所 示 。 为 简单 起 见 , 本 书 使 用 OP0 表示 一 个 32 位 数据 的 最 高 字 节 (Most Signifi- 
cant Byte, MSB) ,使 用 OP3 表示 一 个 32 位 数据 最 低 字 节 (Least Significant Byte,LSB)。 


表 4-1 数据 按照 大 端 和 小 端 模式 在 内 存 中 的 存放 位 置 


由 表 4-1 可 见 , 对 数据 进行 存放 时 ,采用 大 小 端 模 式 的 主要 区 别 在 于 存放 的 字 节 顺序 。 大 
端 模式 将 高 字 节 存放 在 低地 址 ,小 端 模式 将 低 字 节 存放 在 低地 址 。 采 用 大 端 模式 进行 数据 存 
放 符合 人 类 的 正常 思维 ,而 采用 小 端 模式 进行 数据 存放 利于 计算 机 处 理 。 到 目前 为 止 ,是 采用 
大 端 还 是 小 端 进行 数据 存放 , 剖 优 就 劣 没 有 定论 。 
有 的 处 理 器 系统 采用 了 小 端 模式 进行 数据 存放 ,如 Intel 的 奔腾 。 有 的 处 理 器 系统 采用 了 
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大 端 模式 进行 数据 存放 ,如 IBM 半导体 和 Freescale 的 PowerPC 处 理 器 。 不仅 对 于 处 理 器 ,一 
些 外 设 也 存在 着 使 用 大 端 或 者 小 端 进行 数据 存放 的 选择 . 

因此 在 一 个 处 理 器 系统 中 ,有 可 能 存在 大 端 和 小 端 模 式 同 时 存在 的 现象 ， 这 一 现象 给 系 
统 的 软 硬 件 设计 带 来 了 不 小 的 麻烦 ,这 要 求 系统 设计 工程 师 必 须 深 入 理解 大 端 和 小 端 模 式 的 
差别 。 大 端 与 小 端 模 式 的 差别 体现 在 处 理 器 的 寄存 器 ,指令 集 、 系 统 总 线 等 各 个 层次 中 ， 


4.3.1 从 软件 的 角度 理解 端 模式 


从 软件 的 角度 看 ,不 同上 帆 模 式 的 处 理 天 进行 数据 传递 时 需要 考虑 痛 模 式 的 问题 。 例 如 进 
行 网 络 数据 传递 时 ,必须 考虑 问 模 式 的 转换 。 有 Socket 接口 编程 经 验 的 程序 员 一 定 使 用 过 以 
下 几 个 图 数 用 于 大 小 新 末世 序 的 转换 ， 

@ 三 define ntohs(n) /16 位 数据 类 型 网 络 字 市 顺序 到 主机 字 方 筑 夺 的 转换 

@ + define htons(n) /16 位 数据 类 型 主机 字 节 顺序 到 网 络 字 节 顺序 的 转换 

@ define ntohl(n) /32 位 数据 类 型 网 络 字 节 顺 序 到 主机 字 节 顺序 的 转换 

® 二 define htonl(n) /32 位 数据 类 型 主机 字 节 顺序 到 网 络 字 节 顺序 的 转换 

互联 网 使 用 的 网 络 字 和 顺序 采用 大 端 模式 进行 编 址 ,而 主机 宇 节 顺序 根据 处 理 需 的 不 同 
而 不 同 , 如 PowerPC 处 理 器 使 用 大 端 模式 ,而 Pentuim 处 理 胡 使 用 小 端 模式 

大 问 模 式 处 理 辟 的 字 节 序 到 网 络 字 节 序 不 需要 转换 ,此 时 ntohs(n) =n,nrohl(n) = ni 而 
小 疹 模 式 处 理 需 的 宇 节 序 到 网 络 字 节 必须 要 进行 转换 ,此 时 ntohs(n) = __ swabl6(n),ntohl 
= swab32(n)。 _ swabl6 与 ”swab32 畏 数 定义 如 下 所 示 : 


Hdefine swwabl16(X) 
| 
U6 x = (x); 
((_ ul6)( 
((( ul6)( x) &@( ul6)0x0o0ffU) << 8) | 
(((_ ul6)( x) &@( ul6)0xff00U) > > 8) )); 
| 
#define -swab32(x) 
| 
32 x = (x); 
((_ u32)( 
(((_ u32)(_ x) & (_ u32)0x000000ffUL) << 24) | 
(((_u32)( x) &( uu32)0x0000f{f00UL) << 8)| 
(((_ u32)(_ x) & (_ 132)0x00ff0000UL) 二 > 8) | 
(((_u32)( x) & (_ u32)0x{f000000UL) > > 24) )); 
| 
PowerPC 处 理 器 提供 了 lwbrx IJhbrx .stwbrx sthbrx 四 条 指令 处 理 字 市 序 的 转换 以 优化 _ 
swab16 和 _ swap32 函数 。 此 外 PowerPC 外 理 器 的 rlwimi 指令 也 可 以 用 来 实现 swab16 和 _ 
_ swap32 这 类 函数 .Linux PowerPC 定义 了 一 系列 有 关 字 和 序 转换 的 图 数 ,其 许 细 定 义 在 ./ 
include/asm-powerpc/byteorder.h 文件 中 。 
程序 员 在 对 普通 文件 进行 处 理 也 需要 考虑 端 模式 问题 。 在 大 端 模式 处 理 器 下 对 同一 文件 
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的 32 位 、16 位 读 写 操作 所 得 到 的 结果 可 能 与 小 端 模 式 处 理 器 不 同 。 读 者 单纯 从 软件 的 角度 
理解 也 远 不 能 真正 理解 大 小 端 模式 的 区 别 。 事 实 上 ,要 真正 理解 大 小 端 模 式 的 区 别 , 必 须 从 指 
令 集 ,寄存 器 和 数据 总 线 上 的 层面 上 深入 研究 。 


4.3.2 从 系统 的 角度 理解 端 模式 


除了 4.2.1 节 中 ,软件 中 对 不 同 端 模 式 编程 上 的 差异 ,硬件 设计 也 存在 由 于 端 模 式 而 带 来 
的 问题 。 从 系统 的 角度 上 看 , 端 模式 问题 对 软件 和 硬件 的 设计 带 来 了 不 同 的 影响 。 如 果 在 一 
个 处 理 器 系统 中 ,大 小 端 模式 同时 存在 时 ,设计 者 必须 对 这 些 不 同 端 模式 的 访问 进行 特殊 的 
处 理 。 

在 网 络 协议 的 软件 设计 中 ,使 用 小 端 模式 的 处 理 器 需要 在 软件 中 处 理 端 模式 的 转变 。 而 
多 数 外 设 都 采用 小 端 模式 ,包括 一 些 在 网 络 设备 中 使 用 的 PCI 总 线 、Flash 等 设备 ,这 也 要 求 硬 
件 工 程 师 在 硬件 设计 中 注意 端 模式 的 转换 。 

本 书 中 的 小 端 外 设 是 指 这 种 外 设 中 的 寄存 器 以 小 端 模式 进行 存储 ,如 PCI 设备 的 配置 空 
间 、NOR FLASH 中 的 寄存 器 等 等 。 

对 于 有 些 设备 ,如 DDR 颗粒 ,没有 以 小 端 模 式 存储 的 寄存 器 ,因此 从 逻辑 上 讲 并 不 需要 对 
器 模 式 进 行 转换 。 在 设计 中 ,只 需要 将 双方 数据 总 线 进行 一 一 对 应 的 互 连 ,而 不 需要 进行 数据 
总 线 的 转换 。 

从 实际 应 用 的 角度 看 ,采用 小 端 模式 的 处 理 器 需要 在 软件 中 处 理 端 模式 的 转换 ,因为 采用 
小 端 模 式 的 处 理 器 在 与 小 端 外 设 互 连 时 ,不 需要 任何 转换 。 

而 采用 大 端 模式 的 处 理 器 需要 在 硬件 设计 时 处 理 端 模 式 的 转换 。 大 端 模式 处 理 器 需要 在 
寄存 器 、 指 令 集 .数据 总 线 与 小 端 外 设 的 连接 等 多 个 方面 进行 处 理 , 以 解决 与 小 端 外 设 连接 时 
的 端 模式 转换 问题 。 

在 寄存 器 和 数据 总 线 的 位 序 定义 上 ,大 小 端 模 式 的 处 理 器 有 所 不 同 。 

一 个 采用 大 端 模 式 的 32 位 处 理 器 ,如 基于 E500 内 核 的 MPC8541, 将 其 寄存 器 的 最 高 位 
(msb,most significant bit) 定 义 为 0, 最 低位 (lsb, least significant bit) 定 义 为 31; 而 小 端 模式 的 
32 位 处 理 器 ,将 其 寄存 器 的 最 高 位 定义 为 31, 低 位 地 址 定义 为 0, 如 图 4-8 所 示 。 与 此 相对 应 ， 
32 位 大 端 模 式 处 理 器 数据 总 线 的 最 高 位 为 0, 最 低位 为 31;32 位 小 端 模式 处 理 器 的 数据 总 线 
的 最 高 位 为 31 ,最 低位 为 0。 


大 端 模式 处 理 器 寄存 器 位 序 定义 | OP0 | oPI | op | ops 


31 0 
小 端 模式 处 理 器 寄存 器 位 序 定 义 opPo | OP1 OP2 OP3 


图 4-8 ”大 小 病 模 式 处 理 器 的 寄存 秀 的 定义 


大 小 端 模 式 处 理 器 外 部 总 线 的 位 序 根据 所 采用 的 数据 总 线 是 32 位 、16 位 和 8 位 ,大 小 端 
处 理 怖 外 部 总 线 的 位 序 有 所 不 同 。 
e@ 大 端 模式 下 ,32 位 数据 总 线 的 msb 是 第 0 位 ,MSB 是 数据 总 线 的 第 0 一 7 字段 ;而 lsb 是 
第 31 位 ,LSB 是 第 24 一 31 字段 。 小 端 模 式 下 ,32 位 总 线 的 msb 是 第 31 位 , MSB 是 数 
据 总 线 的 第 31 一 24 位 ,lsb 是 第 0 位 ,LSB 是 7~0 字段。 
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e 大 医 模 式 下 ,16 位 数据 总 线 的 msb 是 第 0 位 ,MSB 是 数据 总 线 的 第 0 一 7 字段 ;而 lsb 是 
第 15 位 ,LSB 是 第 8 一 15 字段 。 小 端 模 式 下 ,16 位 总 线 的 msb 是 第 15 位 ,MSB 是 数据 
总 线 的 第 15 一 7 位 ,lsb 是 第 0 位 ,LSB 是 第 7~0 字段 。 
e@e 大 端 模式 下 ,8 位 数据 总 线 的 msb 是 第 0 位 ,MSB 是 数据 总 线 的 第 0 一 7 字段 ;而 lsb 是 
第 7 位 ,LSB 是 第 0~7 字段 。 小 端 模 式 下 ,8 位 总 线 的 msb 是 第 7 位 ,MSB 是 数据 总 线 
的 第 7 一 0 位 ,lsb 是 第 0 位 ,LSB 是 7 一 0 字段。 
由 以 上 分 析 ,我 们 得 知 对 于 8 位 、16 位 和 32 位 宽度 的 数据 总 线 ,采用 大 端 模 式 时 数据 总 
线 的 msb 和 MSB 位 置 不 会 发 生变 化 ,而 采用 小 端 模式 时 数据 总 线 的 lsb 和 LSB 位置 也 不 会 发 
为 此 ,大 端 模式 的 处 理 器 对 8 位 、16 位 和 32 位 的 内 存 访问 (包括 外 设 的 访问 ) 一 般 都 包含 
第 0 一 7 字段 , 即 MSB。 小 端 模 式 的 处 理 器 对 8 位、16 位 和 32 位 的 内 存 访问 都 包含 第 7 一 0 
位 ,小 端 方式 的 第 7 一 0 字段 , 即 LSB。 
由 于 大 小 端 处 理 器 其 8 位 、16 位 和 32 位 宽度 的 数据 总 线 的 定义 不 同 ,因此 需要 分 别 讨论 
这 些 数 据 总 线 在 系统 级 别 上 如 何 处 理 端 模式 转换 。 在 实际 应 用 中 ,并 没有 大 端 外 设 ,因此 本 书 
只 对 大 姜 处 理 器 访问 小 端 外 设 进行 说 明 。 
1. 大 端 处 理 器 访问 32 位 小 端 外 设 
大 并 处 理 器 采用 32 位 总 线 访问 小 端 外 设 时 ,其 数据 总 线 的 第 0 一 7 位 用 来 处 理 OP0, 第 8 
一 15 位 用 来 处 理 OP1, 第 16 一 23 位 用 来 处 理 OP2 ,第 24 一 31 位 用 来 处 理 OP3。 而 32 位 的 小 
器 设备 使 用 数据 总 线 的 第 31 一 24 位 用 来 处 理 OP0 ,第 23 一 16 位 用 来 处 理 OP1, 第 15 一 8 位 用 
来 处 理 OP2, 第 7 一 0 位 用 来 处 理 OP3。 
PowerPC 处 理 器 ,如 MPC8541 ,可 以 使 用 stw 和 指令 对 32 位 的 外 部 设备 进行 访问 。 在 这 
些 指 令 结束 后 ,存放 在 外 部 设备 的 数据 将 被 读 和 人 MPC8541 的 通用 寄存 器 中 。 为 保证 软件 的 
一 致 性 , 当 访 问 结束 后 ,存放 在 通用 寄存 器 的 字 节 序 , 即 OP0,OP1,OP2 和 OP3 必须 和 存放 在 
小 病 外 设 的 字 节 序 一致 。 此 时 在 使 用 大 端 处 理 器 的 数据 总 线 连接 小 端 外 设 时 需要 按照 某 种 拓 
扑 结构 连接 以 保证 软件 的 一 致 性 。 大 端 处 理 器 数据 总 线 与 小 端 外 设 进行 连接 的 拓扑 结构 如 图 
4-9 所 示 。 


大 端 处 理 器 的 32 位 数据 总 线 


小 端 设 备 的 32 位 总 线 接口 





图 4-9 ”大 端 处 理 需 与 小 端 外 设 的 32 位 连接 


大 只 处 理 豆 访问 小 端 设 备 时 ,需要 将 各 自 的 OP0 ~ OP3 字段 直接 相连 。 在 大 端 处 理 器 
中 ,32 位 数据 总 线 的 最 高 位 为 0, 最 低位 为 31; 而 小 端 设备 的 最 高 位 为 31, 最 低位 为 0。 因此 
人 硬件 工程 师 在 进行 信号 连接 时 需要 将 大 端 处 理 器 的 0 一 31 位 与 小 端 设备 的 31 一 0 位 一 一 对 应 
进行 互 连 。 
2. 大 端 处 理 器 对 8、16 位 小 端 外 设 进行 访问 
对 于 32 位 处 理 器 ,用 来 连接 外 设 的 总 线 一 般 是 32 位 。 因 此 体系 结构 设计 师 在 进行 大 端 
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处 理 器 总 线 设 计时 有 两 种 选择 :一 是 采用 32 位 总 线 的 高 端 部 分 (第 0 一 15 字段 ) 连 接 8 16 位 
的 小 端 设备 ;二 是 采用 低 端 部 分 (第 16 一 31 字段 ) 

PowerPC 处 理 器 使 用 32 位 总 线 的 高 端 部 分 , 即 数据 总 线 的 第 0 一 15 位 连接 16 位 的 小 端 
设备 ,使 用 0 一 7 位 连接 8 位 的 小 端 设备 。 

PowerPC 处 理 侣 来 用 16 位 总 线 与 16 位 的 小 端 外 设 进行 访问 时 ,PowerPC 处 理 器 的 16 位 
数据 总 线 的 第 0 一 7 位 用 来 处 理 OP0, 第 8 一 15 位 用 来 处 理 OP1., 而 16 位 的 小 端 设备 使 用 数 
据 总 线 的 第 15 一 8 位 用 来 处 理 OP0, 第 7 一 0 位 用 来 处 理 OP1 

PowerPC 处 理 器 采用 8 位 总 线 与 8 位 的 小 端 外 设 进行 访问 时 ,PowerPC 处 理 器 的 8 位 数 
据 总 线 的 第 0 一 7 字段 用 来 处 理 OP0。 而 8 位 的 小 端 设 备 使 用 数据 总 线 的 第 7 一 0 位 用 来 处 理 
OP1。 大 端 处 理 器 与 小 端 外 设 的 拓扑 结构 如 图 4-10 所 示 。 


0 7 0 7 8 13 

大 漳 处 理 器 的 /16 位 数据 总 线 

小 江 设 和 的 8116 位 总线 接 P 
7 0 13 8 1 日 


图 4-10 ”大 端 处 理 器 与 小 端 处 设 的 8716 位 连接 


PowerPC 处 理 帮 可 以 使 用 sth,stb 和 lhz,lbz 指令 对 8 .16 位 的 外 部 设备 进行 访问 ,并 将 数 
据 存 放 在 相应 的 通用 寄存 器 中 。 当 访问 结束 后 ,存放 在 通用 寄存 器 的 字 节 序 , 即 OP0.OP1 必 
须要 和 存放 在 小 端 外 设 的 字 节 序 一 致 

PowerPC 处 理 硕 访问 8 位 的 小 端 外 设 时 ,一 次 只 能 访问 8 位 数据 ,如 果 处 理 器 使 用 stw 或 
彰 lwz 指令 访问 8 位 的 小 端 设备 内 的 32 位 数据 时 ,数据 总 线 将 OP0,OP1,OP2 和 OP3 依次 传 
人 这 到 PowerPC 的 通用 寄存 器 中 . 

PowerPC 处 理 需 对 16 位 的 小 端 外 设 进行 访问 时 ,一 次 只 能 访问 16 位 数据 ,如 果 处 理 器 使 
用 stw 或 者 lwz 指令 访问 16 位 的 小 端 设备 内 的 32 位 数据 时 ,数据 总 线 将 OP0 一 1 和 OP2 一 3 
依次 传递 到 PowerPC 的 通用 寄存 器 中 . 

由 以 上 分 析 , 我 们 可 以 发 现 PowerPC 处 理 器 使 用 sth 或 者 lhz 指令 访问 16 位 的 小 端 设备 
时 ,16 位 的 小 端 设备 将 数据 的 第 15 一 0 位 ,传递 到 PowerPC 处 理 器 的 总 线 的 第 0 一 15 位 ,然后 
再 将 数据 传递 给 相应 的 通用 寄存 器 。 

有 许多 读者 会 感到 困惑 ,因为 为 了 保证 软件 的 一 致 性 ,PowerPC 处 理 器 使 用 lhz 指令 访问 
16 位 的 小 端 设备 的 16 位 寄存 器 时 ,需要 将 结果 保存 在 通用 寄存 器 的 第 16 一 31 位 ,而 不 是 0~ 
15 位 。 究 竟 PowerPC 处 理 器 是 如 何 将 系统 总 线 中 0 一 15 位 的 数据 搬移 到 寄存 器 的 第 16 一 31 
位 中 的 呢 ? 为 此 我 们 需要 对 lhz 指令 进行 分 析 。 

lhz 指令 的 描述 如 下 : 


ihz 1D, d(rA) 

i{rA = 0thanb—0 
else b < (rA) 

EA=<— b+ EXTS(d) 

DD=— (16)0 || MEM(EA, 1) 
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由 此 得 知 lhz 指令 将 来 自 数据 总 线 上 的 OP0 与 OP1 直接 存 人 寄存 器 的 第 16 一 31 位 ,而 
将 第 0 一 15 位 直接 清 零 . 

PowerPC 处 理 硕 使 用 stb 或 者 lbz 指令 访问 8 位 的 小 端 设备 时 ,8 位 的 小 端 设备 将 数据 的 
第 7 一 0 位 ,传递 到 PowerPC 处 理 器 的 总 线 的 第 0 一 7 位 ,然后 再 将 数据 最 终 传递 给 相应 的 通 
用 寄存 器 ,lbz 指令 的 描述 如 下 所 示 : 


lbz rD, d(rA) 
ifrA = 0 thenb<—0 
else b <— (rA) 
EA <—b + EXTS(d) 
D < (24)0 || MEM(EA, 1) 
由 此 得 知 lhz 指令 将 来 自 数据 总 线 上 的 OP0 直接 存 人 寄存 器 的 第 24 一 31 位 ,而 将 第 0 一 
23 位 清 零 。sth 和 stb 的 指令 描述 与 lhz 和 [bz 类 似 ,本 书 不 再 详 述 . 
本 市 摘 述 了 大 端 处 理 器 的 32 位 .16 位 及 8 位 数据 总 线 与 32 位 .16 位 和 8 位 小 端 设备 进 
行 连接 的 端 模式 处 理 。 如 果 大 端 处 理 器 的 数据 总 线 需 要 同时 支持 小 端 设备 的 32 位 ,16 位 及 8 
位 的 数据 传送 方式 , 端 模 式 的 处 理 将 会 更 加 复杂 。IC 的 设计 人 员 在 设计 PCI 总 线 桥 片 的 时 候 
会 遇 到 这 一 类 问题 ,此 时 设计 人 员 使 用 多 路 总 线 开关 解决 这 一 问题 。 端 模式 问题 的 解决 需要 
软 硬 件 协调 处 理 , 并 在 指令 集 上 加 以 支持 。 对 于 小 端 处 理 器 而 言 ,需要 使 用 软件 转换 的 方法 实 
现 大 小 端 模式 的 匹配 ;对 于 大 羡 处 理 器 而 言 ,在 外 部 数据 总 线 与 小 端 外 设 的 连接 时 必须 考虑 数 
据 总 线 连接 的 拓扑 结构 。 
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第 $S 僵 Linux PowerPC 的 进程 管理 与 调度 


对 于 多 任务 操作 系统 ,进程 管理 与 调度 至 关 重 要 。 在 Linux 系统 中 ,进程 管理 与 调度 处 于 
核心 地 位 。Linux 系统 支持 多 用 户 和 多 进程 ,每 个 用 户 可 以 执行 多 个 进程 。 在 一 个 处 理 器 系 
统 中 ,CPU 资源 最 为 重要 。Linux 系统 进程 调度 与 管理 的 主要 功能 是 协调 多 个 进程 使 用 CPU 
资源 。Linux 系统 是 一 个 分 时 操作 系统 ,在 Linux 系统 中 ,每 一 个 CPU 的 运行 时 间 都 被 划分 为 
一 段 一 段 的 时 间 卢 ,各 个 进程 如 何 合 理 地 使 用 这 些 时 间 片 直接 影响 到 整个 Linux 系统 的 效率 。 

在 Linux 系统 中 ,一 个 进程 的 执行 时 间 
可 能 是 几 秒 钟 ,也 可 能 是 几 个 月 ,但 是 这 些 进 i 
程 无 论 其 执行 时 间 长 得 都 要 经 历 若干 状态 ， 
都 有 一 个 完整 的 生命 周期 。 进 程 在 Linux 系 
统 中 执行 过 程 中 的 状态 转换 如 图 5-1 所 示 。 

Linux 系统 使 用 系统 调用 fork、vfork 与 
clone 创建 进程 或 者 线程 。 一 个 进程 被 创建 
后 将 首先 进入 就 绪 态 ,之 后 等 竺 合适 的 时 机 图 5-1 进程 状态 转换 图 
获得 CPU 资源 ,进入 运行 态 运 行 。 

进程 进入 运行 态 后 可 以 执行 程序 代码 。 如 果 进 程 在 执行 过 程 中 因为 某 些 资源 未 能 满足 不 
能 继续 执行 ,进程 将 进入 等 待 /阻塞 状态 。 

Linux 调度 程序 可 以 将 进程 从 运行 态 置 回 就 绪 态 ,如 进程 使 用 完 自己 的 时 间 片 ,或 者 进程 
主动 放弃 CPU。 进 程 运 行 完毕 后 ,将 进入 结束 态 , 结 束 本 次 运行 。 在 Linux 系统 中 ,进程 至 少 
要 经 过 就 绪 `. 运 行 和 结束 状态 。 在 实际 情况 中 ,一 个 进程 的 状态 转换 比 图 5-1 中 的 描述 要 复杂 
得 多 。 

目 从 诞生 以 来 ,Linux 系统 从 来 没有 停止 对 进程 管理 与 调度 算法 的 改进 。Linux 系统 的 
2.0,2.2,2.4 以 及 2.6 内 核 在 进程 管理 与 调度 算法 上 有 较 大 的 不 同 。 对 于 Linux 2.6 内 核 的 
不 同 版 本 ,如 Linux 2.6.9 和 Linux 2.6.20 内 核 ,其 进程 管理 与 调度 算法 也 有 较 大 的 不 同 。 一 
般 来 说 ,版 本 较 新 的 Linux 内 核 往往 会 对 之 前 版 本 中 不 太 完 善 的 代码 进行 调整 ,因此 后 续 版 本 
的 设计 更 加 合理 一 些 , 为 此 本 章 将 以 Linux 2.6.20 内 核 为 例 介 绍 进程 的 管理 与 调度 算法 。 在 
Linux 系统 中 一 个 进程 包含 以 下 几 个 必要 的 组 成 部 分 。 

(1) 进程 描述 符 。 在 Linux 系统 中 ,每 个 进程 都 对 应 一 个 唯一 的 进程 描述 符 ,进程 描述 符 
使 用 task _ struct 结构 。task _ struct 结构 是 Linux 系统 中 最 重要 的 结构 ,该 结构 包含 一 个 进程 
使 用 的 所 有 操作 系统 信息 。 

task _ struct 结构 在 进程 创建 时 建立 ,该 结构 中 包含 了 多 种 参数 ,这 些 参数 记录 当前 进程 
使 用 的 各 种 资源 ,如 与 进程 调度 有 关 的 资源 、 内 存 描述 符 、 文 件 系 统 描 述 符 以 及 当前 进程 打开 
的 文件 句柄 等 一 系列 资源 。 

程序 员 对 整个 Linux 系统 建立 全 面 的 认识 之 后 , 才 有 可 能 真正 了 解 task _ struct 结构 ,该 
结构 是 Linux 进程 管理 与 调度 模块 的 核心 数据 结构 。 
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(2) 进程 的 正文 段 。 在 Linux 系统 中 ,每 一 个 进程 都 必须 有 目 己 的 正文 段 , 即 一 段 可 以 执 
行 的 程序 代码 。 这 上 段 程序 代码 可 以 被 多 个 进程 共享 

(3) 进程 的 数据 段 。 在 Linux 系统 中 ， 每 个 浊 各 部 必 须 有 昌 己 的 数据 空间 ,这 段 数据 空 
间 包 括 进程 在 运行 过 程 中 使 用 的 全 局 变量 。 一 个 进程 的 数据 段 可 以 被 其 他 进程 共享 。 

(4) 进程 的 堆栈 。 每 一 个 进程 都 需要 堆栈 存放 一 些 临 时 数据 并 利用 堆栈 实现 函数 调用 。 
在 Linux 系统 中 ,一 个 用 户 进程 具有 两 个 堆栈 :用 户 堆栈 与 核心 堆栈 ,而 核心 进程 只 拥有 核心 
堆栈 。 

在 Linux 系统 中 ,除了 进程 描述 符 外 ,还 设置 了 许多 其 他 结构 ,如 进程 运行 队列 RQ(Run 
Queue) 和 进程 等 待 队列 WQ(Wait Queue)。 这 些 数 据 结构 用 来 支持 进程 状态 的 转换 并 管理 
Linux 系统 中 的 进程 。 

Linux 系统 在 进行 引导 时 ,需要 将 这 些 结构 进行 必要 的 初始 化 ,之 后 依次 创建 各 类 进程 ， 
并 将 这 些 进程 放 和 人 进程 运行 队列 中 ,最 后 等 待 进程 调度 程序 激活 整个 Linux 系统 的 运行 。 在 
Linux 系统 中 ,这 个 进程 调度 程序 为 schedule 函数 。 

Linux 系统 在 完成 中 断 或 者 异常 事件 的 处 理 后 ,决定 是 否 应 该 执行 shedule 函数 。 如 有 果 
Linux 系统 不 支持 Preemptible, 用 户 进程 在 核心 空间 进入 中 断 或 者 异常 处 理 程序 时 ,中 断 或 者 
异常 处 理 程序 返回 后 ,Linux 系统 必须 回 到 该 进程 继续 执行 ;如 果 一 个 用 户 在 用 户 空 间 进 入 中 
断 或 者 异常 处 理 程序 时 ,中 断 或 者 异常 处 理 程序 返回 后 ,Linux 系统 可 以 根据 进程 的 优先 级 选 
择 合适 的 进程 获得 CPU 资源 。 

如 果 Linux 系统 支持 Preemptible， 那么 无 仑 进程 是 在 用 户 空间 ,或 者 核心 空间 进入 中 断 及 
异常 处 理 程序 ,中 断 及 异常 处 理 程序 返回 后 ,Linux 系统 都 将 根据 进程 的 优先 级 选择 合适 的 进 
程 获得 CPU 资源 。 

对 于 Linux 系统 ,系统 时 钟 异常 最 为 重要 。 该 异常 会 定时 产生 ,并 将 对 当前 进程 与 时 间 相 
关 的 参数 进行 处 理 。 该 异常 处 理 结束 后 ,可 能 会 调用 shedule 函数 (如 当前 进程 耗 尽 Linux 系 
统 分 配 的 时 间 片 ) 进 行进 程 调度 。 

在 Linux 系统 初始 化 后 ,整个 系统 处 于 一 个 相对 静止 的 状态 。 此 时 Linux 系统 初始 化 完 
毕 其 子 系统 使 用 的 各 种 资源 ,然后 等 待 系统 时 钟 异常 协调 这 些 资源 ,并 选择 合适 的 进程 运行 ， 
从 而 使 整个 Linux 系统 正常 运转 。 由 此 可 见 ,整个 Linux 系统 由 系统 时 钟 异常 激活 ,该 异常 也 
被 称 为 整个 Linux 系统 的 脉搏 。 

Linux PowerPC 的 进程 管理 与 其 他 Linux 系统 进程 管理 的 绝 大 多 数 代码 类 似 。 在 Linux 
PowerPC 的 进程 管理 模块 中 只 有 一 小 部 分 代码 与 体系 结构 相关 。 本 章 将 详细 介绍 Linux 
PowerPC 的 进程 管理 与 调度 模块 的 进程 描述 符 、 进 程 分 类 、 进 程 的 状态 转换 、 系 统 时 钟 异 常 及 
进程 的 调度 。 


5.1 Linux 系统 的 进程 描述 符 


Linux 系统 使 用 task _ struct 结构 描述 进程 。Linux 系统 通过 操纵 进程 描述 符 对 当前 进程 
进行 管理 与 调度 。Linux 系统 的 task _ struct 结构 较为 复杂 ,本 节 仅 介绍 一 些 与 进程 管理 与 调 
度 联系 较为 紧密 的 数据 成 员 ,如 进程 的 属性 调度 策略 、 进 程 间 的 关系 等 其 他 属性 ,并 尽 可 能 对 
此 加 以 详细 描述 。 尽 管 如 此 , 绝 大 多 数 读者 还 是 不 能 深入 了 解 task _ struct 结构 。 读 者 可 能 需 
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要 阅读 完 本 书 的 全 部 内 容 后 ,才能 了 解 task _ struct 结构 中 的 部 分 属性 ,在 阅读 本 章 内 容 时 , 需 
要 与 Linux 源 代码 进行 对 照 ,以 了 解 这 部 分 内 容 的 细节 . 

Linux 系统 的 进程 描述 符 包 含 了 与 进程 调度 ,内存 管理 .文件 系统 .信号 机 制 . 中 断 系 统 相 
关 的 一 些 参数 ,一 共有 一 百 多 个 ,本 书 不 可 能 将 其 完全 解释 清楚 。 尽 管 如 此 ,本 章 还 是 需要 从 
进程 摘 述 符 开始 对 Linux 系统 的 进程 管理 与 调度 进行 说 明 。task _ struet 结构 的 定义 在 . /in- 
cludevlinuxysched.h 文件 中 . 


5.1.1 与 进程 管理 相关 的 属性 


进程 描述 符 包 含 了 一 系列 参数 对 进程 进行 管理 ,其 主要 参数 有 state .pid flags .thread 和 
thread _ info 等 等 ,其 定义 如 下 所 示 : 


struct task struct | 
volatile long state:; 
pid _t pid; 
pid _t tgid; 
struct signal _ struct * signal; 
unsigned long flags; 
struct thread _ info * thread _ info; 
struct thread _ struct thread; 
struct linux _ binfmt # binfmt:; 
long exit _ state; 
int exit _ code, exit_ signal; 


struct mm _ struct * mm, * active mm; 


1. state 参数 

state 参数 描述 当前 进程 的 运行 状态 。Linux 系统 为 进程 定义 了 以 下 几 个 状态 ,这 些 状 态 
的 定义 在 .vincludevlinuxysched.h 文件 中 .。 

(1) TASK _ RUNNING。 当 进程 的 state 参数 为 TASK _RUNNING 时 ,表示 该 进程 处 于 
运行 状态 或 者 就 绪 状 态 。 在 Linux 系统 中 ,进程 处 于 运行 或 就 绪 状 态 时 ,state 参数 都 为 TASK 
_RUNNING- 为 区 分 处 于 运行 状态 或 者 就 绪 状 态 的 进程 , Linux 系统 使 用 了 一 个 全 局 指针 
current。 该 指针 指向 正在 运行 的 进程 描述 符 , 其 定义 在 . /include/asm-powerpc/current.h 文 
件 中 。 

Linux PowerPC 使 用 通用 寄存 器 GPR2 保存 current 指针 以 加 快 访问 速度 ,current 指针 的 
详细 定义 如 下 所 示 : 

register struct task _ struct * current asm ( 172°). 


(2) TASK _ INTERRUPTIBLE。 当 进程 的 state 参数 为 TASK _INTERRUPTIBLE 时 ， 
表示 当前 进程 处 于 等 待 状态 。 当 前 进程 为 了 等 待 某 些 信和 号 而 主动 地 放弃 CPU 时 ,可 以 将 
state 参数 赋值 为 TASK _ INTERRUPTIBLE, 并 将 当前 进程 从 进程 运行 队列 中 移出 .使 进程 
进入 等 待 状 态 。 当 进程 等 待 的 信号 来 临 后 ,进程 状态 将 被 改变 为 TASK _RUNNING, 同 时 将 
该 进程 放 人 进程 运行 队列 中 。 
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(3) TASK _ UNINTERRUPTIBLE。 当 进程 的 state 参数 为 TASK “UNINTERRUPT- 
IBLE 时 ,表示 当前 进程 处 于 处 于 等 得 状态， 但 是 与 TASK _ INTERRUPTIBLE 状态 不 同 , 处 
于 该 状态 的 进程 不 能 被 信号 唤醒 ,而 只 能 由 中 断 事件 唤醒 . 

在 Linux 系统 中 ,有 些 设备 驱动 程序 在 等 待 某 些 中 断 事件 时 ,可 以 主动 地 将 进程 状态 设置 
为 TASK _ UNINTERRUPTIBLE ,使 当前 进程 进入 等 待 状 态 。 当 外 部 中 断 到 来 后 ,该 进程 状 
态 将 被 改变 为 TASK _ RUNNING ,等 待 调度 程序 对 该 进程 进行 调度 。 

(4) TASK_ STOPPED。 当 进程 的 state 参数 为 TASK _STOPPED 时 ,表示 Linux 系统 终 
止 了 当前 进程 的 运行 , 即 进程 终止 。 进 程 终止 是 指 Linux 系统 暂时 停止 进程 的 运行 ,然后 等 待 
合适 的 时 机 重新 恢复 进程 的 运行 。Linux 系统 使 用 信和 号 机 制 实现 进程 的 终止 。 

进程 接收 到 SIGSTOP SIGSTP .SIGTTIN 或 SIGTTOU 信和 号 后 ,当前 进程 进入 终止 状 
态 ; 当 进程 接收 到 SIGCONT 信和 号 后 将 进程 状态 改变 为 TASK_ RUNNING 状态 ,等 待 调度 程 
序 对 该 进程 进行 调度 。Linux 系统 使 用 ptrace 软件 对 进程 进行 调试 时 ,进程 状态 首先 被 改写 
为 TASK __STOPPED。 此 外 Linux 系统 中 ,在 进程 的 创建 和 终止 时 也 使 用 该 状态 作为 过 渡 。 

(5) TASK _ TRACED。 当 进程 描述 符 中 的 state 参数 为 TASK_TRACED 时 ,表示 当前 
进程 已 被 ptrace 系统 调用 所 控制 ,处 于 调试 状态 。 

(6) EXIT _ ZOMBIE。 当 进程 的 state 参数 为 EXIT _ ZOMBIE 时 ,表示 当前 进程 已 经 运 
行 结 束 但 其 进程 描述 符 仍然 没有 被 释放 . 该 状态 为 进程 结束 前 的 过 渡 状 态 。 处 于 该 状态 的 进 
程 将 等 待 父 进 程 调用 wait4 或 者 waitpid 系统 调用 释放 该 进程 的 描述 符 。 

(7) EXIT_ DEAD。 当 进程 的 state 参数 为 EXIT_ DEAD 时 ,表示 当前 进程 最 终 完 成 ,该 
状态 是 进程 生命 周期 的 最 后 一 个 状态 : 进程 处 于 该 状态 时 表示 父 进 程 正在 调用 wait4 或 者 
waitpid 系统 调用 结束 当前 进程 。 

(8) TASK_ NONINTERACTIVE。 当 进程 的 state 参数 为 TASK _NONINTERACTIVE 
时 ,表示 当前 进程 具有 一 定 的 非 交 互 式 特 征 , 该 参数 是 最 近 在 Linux 2.6 版 本 中 加 入 的 。 进 程 
处 于 该 状态 并 不 意味 着 当前 进程 为 非 交 互 式 进程 。Linux 系统 使 用 宏 定 义 TASK _ INTER- 
ACTIVE 判断 一 个 进程 是 否 为 交互 式 进程 ,有 关 交 互 式 进程 的 详细 说 明 请 参见 本 章 下 文 。 

Linux 系统 只 有 pipe _ wait 图 数 中 使 用 了 该 状态 ,该 状态 与 TASK _ INTERRUPTIBLE 
联合 使 用 。 

(9) TASK _DEAD。 当 一 个 进程 的 state 参数 为 TASK _DEAD 时 ,表示 当前 进程 已 经 执 
行 完 毕 ,但 是 该 进程 不 需要 父 进 程 使 用 wait4 或 者 waitpid 系统 调用 回收 : 

Linux 系统 使 用 宏 set task _state 和 set current _state 改变 当前 进程 描述 符 的 状态 。 其 
中 宏 set _ task _state 用 来 改写 进程 描述 符 的 状态 ,而 宏 set _ current _ state 用 来 改写 当前 正在 
运行 的 进程 描述 符 的 状态 。 这 两 个 宏 的 源 代码 在 . /include/asm-powerpc/system.h 文件 中 ,如 
下 所 示 : 


井 define set task state(tsk, state_ value) set_ mb{ (tsk)->state, (state_ value)) 
##define set current state(state_ value) set_ mb(current->state, (state_ value)) 
define set _ mb(var, value) do | var = value; mb(); | while (0) 
2. pid,tgid,pgrp 和 signal 参数 
在 Linux 系统 中 ,每 一 个 进程 都 有 唯一 的 标志 符 。 在 进程 创建 时 ,Linux 系统 为 每 一 个 进 
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程 分 配 一 个 唯一 的 号 码 , 这 个 号 码 叫做 进程 ID 号 ,这 个 进程 ID 号 一 般 被 称 为 PID 号 。Linux 
系统 使 用 进程 描述 符 中 的 pid 参数 保存 PID 号 ， 

PID 所 从 0 开始 ,直到 Linux 系统 允许 的 最 大 PID 进程 号 。 通 常 PID 号 较 小 的 进程 是 系 
统 的 核心 进程 和 守护 进程 。 这 些 进程 在 Linux 系统 引导 时 即 被 创建 ,并 且 只 要 Linux 系统 还 
在 运行 ,它们 就 处 于 活跃 状态 。 当 用 户 对 进程 进行 管理 时 ,就 必须 用 到 PID 号。 在 Linux 系统 
中 ,用 户 可 以 使 用 "ps 命令 查看 Linux 系统 中 的 所 有 进程 。 

Linux 系统 中 ,除了 有 进程 PID 号 外 ,还 有 几 种 与 进程 有 关 的 ID 号 ,分 别 是 线程 组 ID 
(Thread Group Leader Process) ,进程 描述 符 中 使 用 tgid 参数 描述 此 参数 ;组 ID( Group Leader 
Process) ,进程 描述 符 使 用 signal 一 pgrp 参数 描述 此 参数 ;Session ID(Session Leader Process)， 
进程 拍 述 符 使 用 signal->session 参数 描述 此 参数 ， 

Linux 系统 对 不 同 的 进程 和 线程 进行 分 组 管理 。 其 中 每 一 个 组 都 有 一 个 组 头 , tgid 参数 就 
征用 来 保存 这 个 组 头 的 ,而 Session ID 与 Linux 系统 的 多 用 户 有 关 。 对 多 进程 编程 有 经 验 的 
读者 也 许 使 用 过 进程 描述 符 的 tgid 和 pgrp 参数 ; 而 对 多 用 户 编程 有 经 验 的 读者 可 能 会 熟悉 
Session 参数 。 本 书 将 不 对 这 些 ID 号 详细 讨论 。 这 类 进程 ID 号 主要 是 提供 给 Linux 系统 的 
应 用 程序 ,还 有 一 些 与 进程 管理 有 关 的 系统 调用 需要 这 类 进程 ID 号 。 

在 Linux 系统 中 ,进程 PID 号 是 一 个 整 型 变量 ,这 个 整 型 变量 与 一 个 数据 结构 相关 联 ,这 
个 数据 结 愧 也 被 称 作 PID 描述 符 ，Linux 系统 使 用 pid 结构 与 PID 号 对 应 。 在 Linux 核心 程 
订 中 ,经 常 使 用 pid 结构 ,而 不 是 PID 号 对 进程 进行 操作 ,如 下 例 所 示 : 

进程 Pl 使 用 系统 调用 kill 向 另外 一 个 进程 P2 传递 信号 时 ,必须 使 用 进程 PID 描述 符 。 
首先 系统 调用 kill 使 用 P2 的 PID 号 作为 输入 参数 ,之 后 Linux 内 核 使 用 该 PID 号 作为 索引 找 
到 该 进程 PID 号 对 应 的 PID 描述 符 , 从 而 找到 该 进程 的 进程 描述 符 , 然 后 再 作 相应 的 信和 号 传 
着 操作 : 

pid 结构 的 详细 描述 如 下 所 示 : 

struet pid 
| 
atomic _ t count; 
int nr; 
struct hlist _ node pid _ chain:; 
struct hlist head tasks! PIDTYPE MAX|; 
struct rcu head reu; 
站 

9 nr 参数 用 来 存放 进程 ID 号 。 

e pid _ chain 参数 将 Linux 系统 中 所 有 的 PID 描述 符 组 成 一 个 双向 链表 。Linux 系统 使 
用 hlist _ node 结构 存放 这 个 双向 链表 ,而 不 是 list node 结构 。 与 list node 结构 相 比 . 
hlist _ node 结构 占用 的 空间 相对 较 小 

® tasks 参数 指向 相应 的 进程 描述 符 , tasks 参数 共有 PIDTYPE _ MAX 个 数据 ,分 别 指 向 
与 pid,tgid ,pgrp 和 session ID 对 应 的 进程 描述 符 

为 提 癌 查询 PID 描述 符 搜索 速度 ,Linux 系统 将 所 有 PID 号 HASH 值 相 同 的 PID 描述 符 
连接 在 一 起 形成 多 个 双向 链表 ,并 使 用 一 个 全 局 数组 pid _ hash 保存 这 些 全 局 链表 ,其 结构 如 
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图 5-2 所 示 。 
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图 5-2 ”PID 描述 符 结 构图 


Linux 系统 的 全 局 数组 pid _ hash 中 一 共有 4096 个 Entry, 每 个 Entry 指 癌 一 个 由 pid 绪 
构 组 成 的 双向 链表 。 全 局 指针 pid _ hash 在 pidhash _ init 函数 中 初始 化 ,其 源 代码 如 下 所 示 : 
void _ init pidhash _ init(void} 
| 
int i, pidhash _ size; 
unsigned long megabytes = nr _ kernel pages >> (20- PAGE SHIFT); 





pidhash _ shift = max(4, fls(megabytes * 4)):; 
pidhash _ shift = min(12, pidhash _ shift); 
pidhash _ size = 1 << pidhash _ shift; 
pid _ hash = aloc _bootmem( pidhash size * sizeof( * (pid _ hash))); 
if (1 pid hash) 
panic(”Could not alloc pidhash! \n); 
for (i = 0; i< pidhash size; i++) 
INIT_ HLIST_ HEAD( &pid _ hash[i|); 
| 
pidhash _init 函数 由 start ”kernel 函数 在 Linux 系统 引导 时 调用 ,此 时 Linux 系统 的 内 在 
管理 尚未 初始 化 完毕 ,全 局 数组 pid _ hash 只 能 使 用 Linux 系统 中 的 Boot Memory 空间 ,因此 
在 这 段 程序 中 使 用 alloc ”bootmem 函数 分 配 pid _ hash 使 用 的 物理 地 址 空间 ， 
pidhash _init 函数 将 全 局 数组 pid _ hash 的 每 一 个 Entry 赋 为 NULL, 即 hlist_ head—>first 
= NULL- 此 后 ,Linux 系统 可 以 使 用 alloc _ pid 函数 创建 pid 结构 ,并 根据 进程 的 PID 号 的 
HASH 值 将 相应 的 pid 结构 加 人 到 pid _ hash 数组 中 。Linux 系统 使 用 pid _ hashfn 国 数 产生 
ID 号 HASH 值 , 该 函数 在 .kernel/Apid.,c 文件 中 ， 
# define pid _ hashfn(nr) hash_ long( (unsigned long)nr, pidhash _ shift) 全 
#define pid_ hashfn (nr) ((nr * (0Qx9e370001)) >> 20) 
从 密码 学 的 角度 上 说 ,pid _ hashfn 函数 的 HASH 强度 非常 低 ,密码 分 析 员 可 以 轻松 地 找 
出 其 数据 础 撞 的 规律 ,但 是 这 个 算法 比较 容易 实现 。 当 处 理 器 的 乘法 运算 较 慢 时 ,程序 员 也 可 
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以 使 用 以 下 算法 快速 实现 pid _ hashfn 函数 . 
pid_ hashfn = (x * (2 + 2 25+ 22-2189.216+ 20)) >> 20 


Linux 系统 使 用 alloc _ pid 函数 创建 进程 的 PID 号 和 与 其 相关 的 PID 描述 符 ,该 函数 的 源 
代码 如 下 所 示 : 
struct pid * alloe_ pid(void) 
| 
struct pid * pid; 
enum pid _ type type; 
int nr = -1; 
pid = kmem _ cache_ alloc(pid _ cachep, GFP_ KERNEL) 
if (1 pid) 
gOtO out; 
nr = alloc _ pidmap(current- > nsproxy- > pid _ ns); 
if (nr < 0) 
goto cout free 
atomic set( 民 pid- >count, 1); 
pid- 之 nr = nr; 
for (type = 0; type < PIDTYPE MAX; ++ type) 
INIT_ HLIST_ HEAD!( &pid- > tasks| type | ); 
spin_ lock _ irg( 久 pidmap _ lock); 
hlist_ add_ head _ rcu( &pid->pid_ chain, &pid_ hash| pid _ hashfn(pid->nr)]); 
spin _ unlock _ irgq(&@pidmap _ lock); 
OuUt: 
return pid; 
out _ free: 
kmem cache_ free(pid_ cachep, pid); 
pid = NULL; 
Eoto out; 


| 


alloc _ pid 图 数 的 执行 流程 如 下 所 示 : 

(1) 再 用 kmem _ cache _ alloc 国 数 从 Linux 系统 的 SLAB 分 配器 中 为 pid 结构 分 配 内 存 
空间 ,有 关 kmem _ cache _ alloc 函数 和 SLAB 分 配器 的 详细 说 明 见 本 书 的 7.3 节 

(2) 调用 alloc _ pidmap 函数 获得 进程 的 PID 号 . 

(3) 初始 化 pid 结构 中 的 count 参数 和 tasks 参数 。 并 将 刚 获得 的 进程 PID 号 赋值 到 pid 
-> nr 参数 ,从 而 将 进程 的 PID 号 和 pid 结构 联系 在 一 起 . 

(4) 根据 进程 PID 号 ,将 pid 结构 加 人 到 pid _ hash 数组 合适 的 位 置 中 。 

在 进程 的 PID 号 和 与 其 相关 的 PID 描述 符 创 建 完 毕 后 ,Linux 系统 可 以 使 用 find _ pid 函 
数 根据 进程 的 PID 号 获得 其 PID 描述 符 . 

find _ pid 函数 首先 使 用 pid _ hashfn 函数 对 进程 PID 号 进行 HASH。 该 HASH 函数 的 结 
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构 有 可 能 会 产生 碰撞 。 当 发 生 碰 撞 时 ,find _ pid 函数 必须 逐个 遍历 全 局 数组 pid _ hash 的 pid 
结构 链表 ,直到 查找 到 与 进程 PID 号 完全 相同 的 进程 描述 符 。 该 函数 的 源 代码 如 下 所 示 : 
struct pid # fastcall find _ pid(int nr) 
| 
struct hlist node * elem:; 
struct pid * pid; 
hlist_ {or_each_ entry _ rcu(pid, elem. 
&pid hashl pid hashfn(nr)|, pid_ chain) | 
if (pid->nr = = nr) 
retumn pid; 
| 
retum NULL; 
| 
3. flags 参数 
| 除了 state 参数 之 外 , Linux 的 进程 描述 符 还 使 用 flags 参数 对 进程 属性 进行 额外 摘 述 。 
Linux 在 .vincludevlinuxvsched.h 文件 中 定义 了 flags 参数 的 各 个 数据 位 ， 
@ PF ALIGNWARN。[lags 参数 的 PF ALIGNWARN 位 为 1 时 ,表示 当前 进程 正在 打 
Ej“ 对 齐 " 警 告 信息 。 只 有 Intel 80486 体系 结构 的 处 理 器 才 使 用 该 参数 。 
@PF_STARTING。flags 参 数 的 PEF _STARTING 位 为 1 时 ,表示 当前 进程 正在 被 创建 . 
Linux PowerPC 没有 使 用 该 参数 . 
e PF EXITING 。flags 参数 的 PF _ EXITING 位 为 1 时 ,表示 进程 正在 退出 。 
@ PF FORKNOEXEC, flags 参数 的 PF_ FORKNOEXEC 位 为 1 时 ,表示 进程 刚刚 被 创 


建 ,但 是 还 没有 执行 。 

@ PF SUPERPRIV 。flags 参数 的 PF_ SUPERPRIV 位 为 1 时 ,表示 当前 进程 正在 使 用 
超级 用 户 权限 。 

@ PF DUMPCORE。flags 参数 的 PF _DUMPCORE 位 为 1 时 ,表示 当前 进程 正在 dump 
系统 信息 。 

@ PF _ SIGNALED，flags 参数 的 PF_ SIGNALED 位 为 1 时 ,表示 当前 进程 被 Linux 系统 
中 的 某 个 信号 中 止 。 


e PF MEMALLOC。flags 参数 的 PF_ MEMALLOC 位 为 1 时 ,表示 当前 进程 正在 申请 
物理 内 存 。 在 Linux 系统 中 ,内 存 的 管理 与 分 配 十 分 复杂 ,在 绝 大 多 数 情况 下 ,Linux 内 
核 使 用 kmalloc 函数 时 ,并 没有 真正 地 从 物理 内 存 池 里 获得 实际 物理 内 存 , 只 有 Linux 
内 核 使 用 alloc _ pages 函数 时 , 才 会 使 用 物理 内 存 中 进行 物理 内 存 申 请 ,此 时 当前 进程 
将 flags 参数 符 值 为 PF ”MEMALLOC。 

@ PF FLUSHER,flags 参数 的 PF _FLUSHER 位 为 1 时 ,表示 Linux 系统 正在 执行 
pdflush 进程 。 

@ PF USED_ MATH ,flags 参数 中 的 PF_USED_MATH 位 为 1 时 ,表示 当前 进程 正在 
使 用 芯片 内 部 的 FPU 处 理 器 ,Linux PowerPC 没有 使 用 该 参数 . 

@ PF FREEZE。flags 参数 的 PF FREEZE 位 为 1 时 ,表示 当前 当前 进程 正在 被 冻结 。 
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在 Linux 系统 中 ,用 户 可 以 使 用 freeze _ processes # cancel _ {freezing 函数 冻结 和 解冻 当 
前 进程 。Linux 系统 被 挂 起 时 ,使 用 freeze _ processes 昧 数 冻 结 系 统 中 有 所 有 的 进程 ;Lin- 
ux 系统 从 挂 起 到 重新 执行 时 ,使 用 cancel _ freezing 函数 解冻 所 有 被 冻结 的 进程 . 

@ PF NOFREEZE,, flags 参数 的 PF NOFREEZE 位 为 1 时 ,表示 该 进程 不 能 被 冻结 。 
Linux 系统 必须 等 待 所 有 进程 的 状态 不 为 PF_ NOFREEZE 后 才能 够 被 挂 起 。 

@ PF FROZEN。flags 参数 中 的 PF_ FROZEN 位 为 1 时 ,表示 当前 当前 进程 已 经 被 冻 
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一 上 已 
e@ PF FSTRANS。flags 参数 的 PF FSTRANS 位 为 1 时 ,表示 当前 进程 正在 被 xfs 文件 
系统 使 用 。xfs 文件 系统 是 SGI 开发 的 一 个 64 位 的 高 性 能 文件 系统 
@PF KSWAPD。flags 参数 的 PF _KSWAPD 位 为 1 时 ,表示 当前 正在 运行 的 进程 为 
kswapd 守护 进程 。 
@ PF SWAPOFF。flags 参数 的 PF _ SWAPOFF 位 为 1 时 ,表示 当前 进程 为 swapdoff 进 
程 ,swapdoff 进程 用 来 关闭 SWAP 区 。 
ee PF LESS_ THROTTLE。flags 参数 的 PF_ LESS_THROTTLE 位 为 1 时 ,表示 nfsd 
进程 正在 处 理 nfs 协议 请 求 
e PF BORROWED MM ,flags 参数 的 PF BORROWED _ MM 位 为 1 时 ,表示 当前 进 
程 没 有 目 己 的 mm _struct 结构 ,而 是 借用 其 他 进程 的 mm _ struct 
在 Linux 系统 中 ,flags 参数 中 还 有 其 他 位 ,如 PF _ RANDOMIZE,PF_ SWAPWRITE,PF 
_ SPREAD PAGE,PF_ SPREAD_ SLAB,PF MEMPOLICY 和 PF_MUTEX_TESTER 等 。 
本 书 不 再 对 这 些 位 一 一 描述 。Linux 系统 规定 只 有 当前 进程 处 于 运行 状态 时 才 可 以 改变 目 己 的 
flags 参数 ,如 以 下 源 代码 将 当前 进程 current 的 flags 参数 中 的 PF _EXITING 位 置 为 1; 


struct task struct * tsk = current; 
tk >flags |= PE EXITING:; 
4. thread _ info 参数 
进程 描述 符 的 thread _ info 参数 是 指向 thread _ info 结构 的 指针 。Linux PowerPC 中 ， 
thread _ info 结构 的 定义 在 . /include/asm-powerpc/thread _ info,h 文件 中 ,其 详细 搞 述 如 下 : 


struct thread _ info | 
struct task struct * task; 
struct exec _ domain * exec_ domain; 
int cpu; 
mt preempt _ count; 
struct restart_ block restart_ block; 
unsigned long local _ flags; 
unsigned long flags __ cacheline_ aligned _in smp; 
必 
@ task 参数 。 该 参数 指 回 当前 进程 的 task _struct 结构 。Linux PowerPC 使 用 该 参数 纪录 
当前 进程 的 task _ struct 结构 . 
9 cxec _ domain 参数 。 该 参数 用 来 记录 当前 进程 的 正文 段 的 信息 。exec _ domain 结构 的 
定义 在 .AincludeAinux/personality.h 六 件 中 . 
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e cpu 参数 。 该 参数 用 来 记录 当前 进程 在 SMP 处 理 器 的 哪个 CPU 中 运行 ,对 于 单 处 理 器 
内 核 系统 ,该 参数 为 0. 
@ restart _block 参数 。 该 参数 用 来 保存 当前 进程 的 restart block 函数 。 
e@ local _flags 参数 用 来 保存 Linux 进程 描述 符 的 一 些 私有 数据 。Linux PowerPC 中 没有 
使 用 local flags 参数 。 
e flags 参数 ， 该 参数 描述 当前 进程 的 一 些 额 外 属性 .如 TIF_SYSCALL_TRACE,TIF _ 
NOTIFY_RESUME,TIF_SIGPENDING.TIF _NEED _RESCHED 等 其 他 属性 ,对 
此 有 兴趣 的 读者 可 以 在 . /include/asm-powerpc/thread info.h 文件 中 找到 所 有 这 些 属 
性 的 定义 。 在 这 些 属性 中 TIF _NEED RESCHED 位 最 为 重要 , 当 thread _ info 参数 
中 的 flags 参数 的 TIF_ NEED_ RESCHED 位 为 1 时 ,Linux 需要 对 该 进程 重新 进行 调 
度 。 在 Linux 系统 中 ,程序 员 可 以 使 用 宏 set _thread _ flag,clear thread _ flag,test _ 
and _set _thread flag,test_and _clear thread _flag 和 test_thread _flag 对 flags 参数 
进行 操作 ;使 用 宏 set _ need _ resched 和 clear need resched 对 flags 参数 的 TIF 
NEED_ RESCHED 位 进行 操作 。 
e@ preempt _count 参数 。 该 参数 用 来 记录 当前 进程 是 否 可 以 被 其 他 进程 抢占 。 当 Linux 
系统 文 持 抢占 式 内 核 时 ,该 参数 有 意义 。 
所 俏 抢占 式 内 核 是 指 用 户 进 程 在 Linux 内 核 中 运行 时 可 以 被 其 他 进程 抢占 。 在 Linux 系 
统 的 最 初版 本 中 不 支持 抢占 式 , 当 用 户 进程 在 Linux 内 核 中 运行 时 不 可 以 被 其 他 进程 抢占 。 
进程 在 这 种 Linux 系统 中 运行 时 ,虽然 中 断 或 者 异常 处 理 程序 可 以 切换 在 Linux 内 核 中 运行 
的 进程 ,但 是 当中 断 或 者 异常 处 理 程 序 结束 后 ,还 需要 返回 到 该 进程 重新 执行 ,而 不 能 切换 到 
其 他 进程 中 执行 。 抢占 式 内 核 允 许 Linux 系统 切换 在 内 核 中 运行 的 进程 。 为 此 ,Linux 系统 
设置 了 preempt count 参数 。 该 参数 可 以 被 宏 preempt disable, preempt ”enable 设置 ， 宏 
preempt _ disable 可 以 对 preempt -count 参数 进行 递增 ,而 宏 preempt _ enable 可 以 对 preempt 
_ count 参数 进行 递减 。 
安 preempt _ disable,preempt _ enable 的 源 代 码 在 . /include/Ainux/preempt.h 文件 中 ,其 源 
代码 如 下 : 


# define preempt _ disable( ) \\ 
do \ 
inc _ preempt _ count(); \ 
barrier( ); \ 
| while (0) 
# define preempt _ enable() \ 
dol \ 
preempt _enable _no resched(); \ 
barrier(); \ 
preempt_ check _ resched( ); \ 
| while (0) 
为 实现 抢占 式 内 核 , Linux 系统 规定 当 preempt ”count 参数 等 于 0 时 ,该 进程 可 以 被 抢 
占 ; 该 参数 大 于 0 时 不 可 抢占 ;该 参数 小 于 0 时 ,表示 系统 出 现 了 Bug。 
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本 书 不 对 抢占 式 内 核 做 详细 描述 。 抢 占 式 内 核 的 概念 实际 上 比较 容易 理解 ,有 许多 操作 
系统 在 设计 之 初 就 支持 抢占 式 内 核 。Linux 系统 的 2.4 版 本 的 后 期 才 支 持 抢占 式 内 核 . 因 此 
一 些 读 者 对 于 抢占 式 内 核 有 些 陌 生 。 

在 Linux 系统 中 ,抢占 式 内 核 的 实现 较为 复杂 ,这 是 因为 在 Linux 系统 的 设计 之 初 并 不 支 
持 抢占 式 内 核 , 有 许多 核心 代码 在 书写 时 并 没有 考虑 到 在 Linux 内 核 中 执行 的 进程 可 以 被 抢 
占 ,因此 在 Linux 系统 中 引信 抢占 式 内 核 的 概念 时 需要 重新 编写 这 些 代 码 。 

一 个 进程 的 thread _ info 结构 在 进程 的 task _ struct 创建 之 后 建立 。Linux 系统 使 用 宏 al- 
loc _ thread _ info 和 free _ thread info 申请 和 释放 thread info 结构 。 在 Linux PowerPC 中 ， 
其 代码 如 下 所 示 : 

# define alloc _ thread _ info(tsk) \\ 
((struct thread info * ) get free pages(GFP KERNEL, THREAD ORDER)) 


# define free _ thread _ info( ti) free_ pages( (unsigned long)ti, THREAD_ ORDER) 


在 Linux PowerPC 中 ,THREAD_ORDER 的 值 为 ];GFP_KERNEL 是 get _free_ pages 
函数 申请 物理 空间 使 用 的 参数 。 

_ get _ free _ pages 函数 在 物理 内 存 中 分 配 一 个 或 者 多 个 物理 地 址 连续 的 页 面 。 执行 alloc 
_ thread _ info 函数 时 ,THREAD _ ORDER 参数 为 1, 此 时 Linux 系统 将 为 数据 结构 thread _ 
info 分 配 两 个 物理 地 址 连续 的 页 面 空间 。 对 于 32 位 的 E500 内 核 ,Linux PowerPC 的 一 个 物 
理 页 面 的 大 小 为 4 KB, 因 此 Linux 系统 将 为 数据 结构 thread _ info 分 配 一 个 物理 地 址 连续 的 8 
KB 空间。 由 thread _ info 结构 可 以 发 现 ,thread info 不 会 需要 8 KB 这 么 大 的 物理 空间 。 
Linux 系统 为 thread _ info 设置 8 KB 大 小 的 空间 的 目的 是 让 进程 的 核心 堆栈 与 进程 描述 符 的 
thread _ info 共 襄 这 段 8 KB 大 小 的 空间 。 

在 Linux 系统 中 ,用 户 进程 共有 两 个 堆栈 ,用 户 堆栈 和 核心 堆栈 。 用 户 进程 在 Linux 系统 
的 用 户 空 间 中 执行 时 ,使 用 用 户 堆 栈 ; 用 户 进程 通过 系统 调用 进入 Linux 内 核 空 间 运行 时 ,使 
用 核心 堆栈 。 

在 Linux 系统 中 ,每 一 个 进程 都 有 自己 的 核心 堆栈 ,这 个 核心 堆栈 将 与 该 进程 描述 符 的 
thread _ info 参数 共享 同一 段 内 存 空 间 。Linux 系统 的 进程 描述 符 ,thread _ info 结构 和 进程 的 
核心 堆栈 的 关系 如 图 5-3 所 示 。 
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图 $-3 进程 描述 符 .thread _ info 与 进程 核心 堆栈 结构 图 


进程 的 核心 堆栈 与 thread _ info 共享 一 个 8 KB 物理 地 址 连续 的 区 域 ， 其 中 进程 的 核心 
礁 栈 的 增长 方向 从 高 地 址 到 低地 址 , 当 进 程 的 核心 堆栈 与 thread _ info 所 占用 的 空间 重 肥 时 ， 
将 引起 进程 的 核心 堆栈 溢出 。 
进程 进入 到 内 核 执 行 时 ,可 以 通过 当前 进程 描述 符 的 thread _ info 参数 获得 该 进程 核心 堆 
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栈 的 栈 顶 指针 。 

5. thread 参数 

thread 参数 是 指向 thread _ struct 结构 的 指针 .thread 参数 保存 了 一 些 与 处 理 器 体系 结构 
相关 的 寄存 器 。 这些 寄存 器 包括 通用 寄存 器 ,进程 的 堆栈 指针 等 其 他 寄存 器 信息 。 进 行进 程 
切换 时 ,Linux 系统 向 要 将 PowerPC E500 内 核 中 的 寄存 器 与 thread struct 结构 中 保存 的 值 
进行 互 换 : 

Linux PowerPC 使 用 SPRG3 寄存 器 保存 thread 参数 以 加 快 对 此 结构 的 访问 速度 。 在 基 
于 E500 内 核 的 PowerPC 处 理 器 中 ,SPRG3 寄存 器 保存 thread 参数 的 虚拟 地 址 ;在 其 他 体系 
的 PowerPC 处 理 顺 中 .如 基于 603E 内 核 ,SPRG3 寄存 器 保存 thread 参数 的 物理 地 址 。 因 为 
在 这 类 PowerPC 处 理 器 中 ,进入 中 断 或 者 异常 处 理 程序 时 ,MMU 将 会 被 关闭 ,因此 必须 通过 
在 SPRG3 寄存 吏 中 保存 的 物理 地 址 才能 获得 有 关 进 程 的 一 些 信息 . 

在 Linux PowerPC 中 ,thread _ struct 结构 的 定义 在 . /include/asm-powerpc/processor.h 文 
件 中 。 对 于 PowerPC E500 内 核 ,thread _ struct 结构 的 主要 数据 成 员 如 下 所 示 : 


struct thread struct | 


unsigned long ksp: /A#* Kernel stack pointer */ 

struct pt_regs * regs; / 着 Pointer to saved register state ¥ / 
mm _ segment +t fs; A¥ forpet fs() validation ¥*/ 

void * pgdir; /# root of page-table tree * / 
signed long last _ syscall; 

unsigned long dber0; A debug control register values * / 
unsigned long dberl ; 

unsigned long dabr; 


bs 

@ ksp 参数 指向 进程 核心 堆栈 的 栈 顶 指针 -。 

@ regs 参数 保存 当前 进程 使 用 的 寄存 器 

8 pgdir 参数 存放 当前 进程 page table 的 基地 址 。 在 Linux 系统 中 ,每 一 个 用 户 进程 都 有 

独立 的 3GB 虚拟 地 址 空间 ,这 些 进程 地 址 空间 彼此 独立 。 

@ last syscall 参数 用 来 保存 系统 调用 号 . 

Linux 系统 创建 子 进程 时 ,thread 参数 将 被 初始 化 

6. mm 和 active _ mm 参数 

mm 参数 保存 当前 进程 的 内 存 地 址 空间 。 在 Linux 系统 中 ,用 户 进程 具有 自己 的 内 存 地 
址 空间 ,而 核心 进程 将 使 用 Linux 核心 的 内 存 地 址 空间 .没有 自己 的 内 存 地 址 空间 ,因此 核心 

active _ mm 参数 用 来 保存 进程 的 用 户 内 存 地 址 空间 。 用 户 进程 的 active _ mm 参数 指向 
用 户 的 内 存 地 址 空间 。 而 核心 进程 没有 用 户 地 址 空间 。 在 Linux 中 ,核心 进程 将 借用 用 户 进 
程 的 内 和 存 地 址 空间 。 

一 个 用 户 进程 进 人 Linux 内 核 运行 时 ,如 果 该 进程 使 用 kernel _ thread 函数 创建 了 一 个 新 的 
核心 进程 , 则 此 核心 进程 的 active_ mm 参数 指向 用 户 进程 的 内 存 地 址 空间 。Linux 系统 的 第 一 个 
核心 进程 init _ task 在 创建 时 ,其 active_ mm 参数 指向 Linux 内 核 中 的 全 局 变量 init_ mm。 
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由 上 所 述 ,用 户 进程 的 mm 和 active _ mm 参数 相等 ;核心 进程 的 mm 参数 为 NULL,ac- 
tive _ mm 参数 将 借用 前 一 个 用 户 进程 的 active _ mm 参数 。 核 心 进程 被 切换 时 借用 的 用 户 进 
程 地 址 空间 将 被 释放 , 即 该 进程 的 active _ mm 参数 被 置 为 NULL。 本 书 在 进程 切换 一 市 中 还 
要 继续 讨论 mm 和 active _ mm 参数 。 读 者 可 能 需要 完成 本 书 的 全 部 内 容 后 , 才 可 能 理解 mm 
和 active _ mm 这 两 个 参数 。 

Linux 系统 采用 mm 和 active _ mm 这 两 个 参数 保存 进程 的 内 存 地 址 空间 有 一 些 深层 次 的 
原因 。 对 于 32 位 处 理 器 ,普通 进程 运行 在 用 户 空间 时 ,可 以 访问 的 用 户 地 址 空间 大 小 为 3 
GB; 普 通 进程 运行 在 Linux 核心 空间 时 ,可 以 同时 访问 核心 的 1 GB 空间 和 用 户 的 3 GB 用 户 
地 址 空间 ;核心 进程 运行 只 能 运行 在 Linux 核心 空间 ,此 时 可 以 访问 核心 的 1 GB 空间 和 借用 
的 3 GB 用 户 地 址 空间 。 

因此 在 Linux 内 核 中 运行 的 进程 都 可 以 有 一 个 完整 的 4 GB 空间 。 这 个 完整 的 4 GB 空 
间 ,对 处 理 Linux 系统 中 的 异常 事件 至 关 重 要 。Linux 系统 使 用 mm _ struct 结构 描述 mm 和 
active _ mm 参数 ,mm _ struct 结构 是 Linux 内 存 管理 系统 中 最 重要 的 数据 结构 ,本 书 将 在 第 7 
章 详细 介绍 mm _ struct 结构 。 

7. binfmt 参数 

Linux 系统 中 支持 许多 种 可 执行 文件 格式 ,其 中 每 一 种 可 执行 文件 都 与 一 种 数据 结构 相 
对 应 。Linux 系统 中 支持 的 主要 可 执行 文件 格式 主要 有 aout, elf,elf _ fdpic 和 flat 格式 。 在 
binfmt 参数 中 存放 着 加 载 这 些 可 执行 文件 的 函数 如 load binary 和 1load _ shlib 一 数 。 

8. exit _state,exit _code 和 exit _signal 参数 

exit _ state 与 exit _ code 参数 用 来 存放 进程 结束 的 状态 和 返回 值 ， 这 些 人 将 由 子 进 程 传递 给 
父 进程 ,并 由 父 进程 处 理 这 些 参数 。exit _ signal 参数 存放 子 进程 结束 时 产生 的 中 止 信号 , 父 进程 
将 处 理 这 个 结束 信号 ,并 释放 子 进程 使 用 的 进程 描述 符 和 其 他 与 子 进程 相关 的 全 部 资源 。 


5.1.2 与 进程 调度 有 关 的 属性 


Linux 属于 分 时 操作 系统 ,将 CPU 的 运行 时 间 分 成 知 干 个 时 间 片 ,每 一 个 进程 使 用 完毕 
自已 的 时 间 片 后 放弃 CPU ,由 其 他 进程 继续 使 用 CPU。 在 多 个 进程 使 用 一 个 CPU 资源 时 ， 
Linux 系统 需要 进行 进程 调度 。 

Linux 系统 采用 基于 优先 权 的 调度 方式 ,可 以 根据 进程 的 特点 对 其 采用 不 同 的 调度 策略 ， 
还 可 以 根据 进程 的 优先 权 确 定 进程 的 运行 时 间 片 ,以 保证 Linux 系统 各 个 进程 合理 地 使 用 
CPU 资源 。 其 中 ,公平 与 高 效 是 Linux 系统 进程 管理 与 调度 模块 所 追求 的 主要 目 标 。 

Linux 系统 将 进程 分 为 以 下 几 类 : 

(1) 交互 式 进程 。 交 互 式 进程 是 需要 人 处理 大 量 交 互 式 信息 的 进程 ,比如 处 理 键盘 、 鼠 标 等 
输入 信息 的 进程 。 这 些 进程 的 共同 特点 是 需要 较 长 时 间 等 竺 用 户 输 入 信息 ,而 一 旦 这 些 信息 
通过 中 断 或 者 其 他 方式 获得 后 ， 需要 巨 速效 得 ( CPU 资源 。 这 类 进程 包括 文本 编译 器 、shell 处 
理 程序 等 等 。 | 

(2) 批 处 理 进程 。 这 类 进程 基本 上 不 需要 用 户 交互 信息 ,可 以 放 入 后 台 运 行 。 这 类 进程 
的 优先 权 较 低 ,但 是 需要 持续 不 断 地 使 用 CPU 资源 。 科 学 计算 文件 编译 、 数据 库 查 找 等 进程 
属于 这 一 类 进程 。 

(3) 实时 进程 。 这 类 进程 用 来 在 规定 的 时 间 内 对 实时 信息 进行 处 理 。 这 类 进程 的 优先 权 
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高 于 以 上 两 类 进程 。 

(4) 普通 进程 。 不 属于 上 述 进程 的 分 类 的 进程 . 在 Linux 系统 中 ,大 多 数 进程 都 是 普通 
进程 。 普 通 进程 和 交互 式 进程 可 以 动态 转换 . 

普通 进程 在 CPU 中 运行 时 可 以 根据 与 用 户 的 交互 频繁 程度 调整 为 交互 式 进程 ,反之 亦 
然 。 普 通 进程 与 批 处 理 进程 或 者 实时 进程 进行 转换 需要 使 用 系统 调用 . 

Linux 的 进程 管理 与 调度 根据 以 上 分 类 ,在 进程 描述 符 中 设置 了 许多 参数 管理 这 几 类 进 
程 。 这 些 参 数 是 进程 管理 与 调度 的 核心 ,包括 与 进程 优先 权 相 关 的 参数 如 static _ prio、normal 

_ prio 和 prio, 与 进程 使 用 的 时 间 片 相关 的 参数 如 time _slice first _ time _ slice 等。 在 进程 摘 

述 符 中 ,与 进程 调度 相关 的 属性 如 下 所 示 : 


int prio，static _ prio, normal _ prio; 

struct list_ head run _ list; 

struct Prio array # array; 

tnsigned long rt priority; 

unsigned short ioprio: 

unsigned long sleep_ avg; 

unsigned long long timestamp:; 

unsigned long long sched time; /* sched clock time spent running */ 


enum sleep _ type sleep _ type; 
unsigned long policv; 
unsigned int time _ slice，first time_ slice; 
spinlock _ +t pi_ lock; 
struct plist _ head pi _ waiters; 
1. static _ prio 参数 
static _ prio 参数 表示 当前 进程 的 静态 优先 权 - 在 Linux 系统 中 ,程序 员 只 能 通过 系统 调 
用 nice 修改 一 个 进程 的 静态 优先 权 。 如 果 在 进程 运行 的 过 程 中 ,没有 使 用 系统 调用 对 此 参数 
进行 修改 ,此 参数 将 一 直 保 持 不 变 ,static _ prio 参数 在 进程 的 运行 期 间 不 会 因为 其 占用 CPU 
的 时 间 长 短 而 发 生变 化 
子 进程 的 static _ prio 参数 继承 其 父 进程 的 static _ prio 参数 。 如 果 在 进程 的 创建 过 程 中 ， 
没有 任何 父 进程 改写 过 static _ prio 参数 的 值 ,那么 static _ prio 参数 的 人 将 为 Linux 系统 的 第 
-个 核心 进程 , 即 init _task 进程 的 static_prio 参数 值 , 这 个 值 为 MAX__PRIO-20. 即 为 120。 
用 户 可 以 通过 系统 调用 nice 修改 进程 的 static _ prio 参数 。 在 Linux 系统 中 ,系统 调用 nice 将 
调用 set _ user _ nice 函数 修改 当前 进程 的 static _ prio,set _ user _ nice 函数 的 源 代码 在 . /ker- 
nel/sched.c 文件 中 。 其 主要 源 代 码 如 下 : 


void set user_ nice(struct task _ struct * p, long nice) 
| 

struct prio. array * array; 

int old _ prio, delta; 

unsigned long flags: 
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Pp->static _ prio = NICE _ TO _ PRIO(nice); 
set_ load weight(p); 
old_ prio = p->prio; 
Pp->prio = effective_prio(p); 
set _ user _ nice 图 数 具 有 两 个 参数 p 和 nice。 其 中 参数 p 用 来 指向 当前 进程 的 进程 描述 
符 ,参数 nice 是 一 个 long 类 型 的 数值 ,其 范围 为 -20 一 19, 用 来 设置 进程 的 static _ prio 
set _ user _ nice 图 数 使 用 以 下 步骤 修 改 static _ prio 参数 ， 
(1) 调用 NICE _ TO _ PRIO 将 进程 的 static _ prio 参数 改写 为 120 + nice, 因此 一 个 进程 
的 static _ prio 参数 在 100 一 139 之 间 。 
(2) 调用 effective _ prio 函数 将 进程 的 prio, normal _ prio 参数 与 static _ prio 的 值 进行 同 
步 。prio 和 normal _ prio 参数 将 在 下 文 介绍 。 
set _ user _ nice 函数 的 实现 比 上 述 过 程 要 复杂 得 多 。 但 是 在 现 阶 段 , 读 者 先 暂 时 这 样 理解 
该 图 数 。 在 Linux 系统 中 ，static _ prio 参数 是 一 个 进程 的 基本 属性 。 许 多 与 调度 相关 的 属性 
是 根据 static _ prio 参数 计算 得 出 的 。 
2. rt_ priority 
Linux 系统 文 持 实 时 进程 ,并 使 用 rt _ priority 参数 描述 当前 进程 的 实时 优先 权 。 在 进程 
运行 过 程 中 ,程序 员 可 以 通过 系统 调用 修改 进程 的 rt _ priority 参数 。 
在 Linux 系统 中 ,进程 在 创建 初期 都 是 普通 进程 ,此 时 进程 的 r__priority 参数 没有 意义 。 但 
是 这 些 普通 进程 可 以 通过 系统 调用 sched setscheler 和 sched setparam 改写 进程 的 rt _ priority 属 
性 和 调度 策略 将 普通 进程 改 为 实时 进程 ，sched _ setschaler 系统 调用 可 以 改写 进程 的 进程 的 rt 
priority 参数 和 调度 策略 ,而 sched setparam 系统 调用 只 能 改写 该 进程 的 rt _ priority 人 参数. 
sched _ setscheler 和 sched _ setparam 系统 调用 最 终 需 要 调用 _setscheduler 函数 来 更 改进 
程 的 rt _ priority 参数 和 进程 调度 属性 ， setscheduler 函数 的 源 代码 在 . /kernel/sched.h 文件 
中 ,其 源 代码 如 下 
static void _ setscheduler(struct task _ struct * p, int policy, int prio) 
| 
BUG _ ON(p- >array); 


Ppolicy = policy; 

PpP->rt_ priority = prio; 

Pp->normal_prio = normal prio(p); 

/# weare holding p->pi_ lock already * / 

P>prio = rt_ mutex_ getprio(p); 

A 关 
* SCHED_ BATCH tasks are treated as perpetual CPU hogs: 
其 

if (policy = = SCHED BATCH) 
p>aeep_avg = 0; 

set_ load _ weight(p); 

| 
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_ setscheduler 果 数 具有 三 个 参数 p,policy 和 prio。 参 数 p 用 来 指向 当前 进程 的 进程 描述 
符 ,参数 policy 用 来 设置 进程 的 调度 策略 ,而 参数 prio 用 来 设置 进程 的 rt _ priority。 

进程 的 rt _ priority 参数 在 0 一 99 之 间 。 当 rt _ priority 越 大 时 ， 进程 的 实时 优先 权 级 越 
高 。rt _ priority 参数 与 进程 的 调度 策略 参数 相关 ,只 有 采用 了 SCHED _ FIFO 和 SCHED _ RR 
调度 策略 的 进程 ,其 rt _priority 参数 才 有 意义 。 

在 Linux 系统 中 ， 成 为 实时 进程 需要 具备 两 个 条 件 :一 是 当 前 进程 的 调度 策略 ， Bh policy 
参数 的 值 ,为 SCHED _ FIFO 或 者 SCHED _ RR; 二 是 当前 进程 的 rt _ priority 值 有 效 。 

一 个 进程 的 rt _ priority 参数 与 prio, normal _ prio 参数 密切 相关 。Linux 系统 修改 此 参数 
之 后 ,需要 使 用 normal _ prio 和 rt_ mutex _ getprio 函数 同步 进程 的 prio 和 normal _prio 参数 。 

3. prio 参数 | z 

在 进程 描述 符 中 ,prio 参数 的 作用 至 关 重 要 。Linux 系统 使 用 基于 优先 权 的 调度 策略 ,其 
中 这 个 优先 权 与 prio 参数 中 直接 相关 。 在 Linux 系统 中 ,prio 参数 一 个 动态 变量 。 当 出 现 以 
下 四 种 情况 时 ,prio 参数 将 会 改变 : 

(1) 当 进 程 的 static _ prio 参数 发 生变 化 时 。 

(2) 当 程 序 员 使 用 _ setscheduler 函数 将 Linux 系统 中 的 一 个 普通 进程 更 改 为 实时 进程 时 ， 
prio 参数 将 随 rt _ priority 参数 的 变化 而 变化 。 

“(3) 一 个 普通 进程 在 执行 过 程 中 ,会 根据 其 在 CPU 中 的 睡眠 时 间 ， 动态 地 调整 prio 才 参数 。 
一 个 进程 在 CPU 中 的 睡眠 的 时 间 越 长 ,其 prio 参数 的 值 越 小 。 

(4) 进程 优先 权 的 继承 。 进 程 优先 权 继 承 将 在 下 文 详细 描述 。 

Linux 的 调度 程序 根据 prio 参数 确定 程序 的 优先 权 ， 一 个 进程 的 prio 参数 越 大 表示 该 进 
程 的 优先 权 越 低 , prio 参 参数 的 取 值 范围 为 0 一 139。 当 一 个 进程 的 prio 的 值 为 0 一 99 时 ,此 进程 
为 实时 进程 , 当 prio 的 值 为 100 一 139 时 ,此 进程 为 普通 进程 。 prio 参 参数 的 值 需要 根据 当 前 进 
程 是 实时 进程 还 是 普通 进程 分 别 讨论 。 

对 于 实时 进程 ,程序 员 使 用 _ setscheduler 函数 改变 进程 的 rt _ priority 参数 和 调度 策略 的 
同时 也 会 将 prio 参数 更 新 为 rt _ mutex _ getprio(p)。 在 大 多 数 情况 下 ,这 个 值 与 进程 的 nor- 
mal _ prio 参数 相同 为 MAX _ RT _ PRIO-1 - p->rt _priority, 即 99- p- >>rt _ priority。 在 Linux 
系统 中 , 宏 MAX_ RT _ PRIO 等 于 100。 | | 

实时 进程 的 prio 参数 在 运行 过 程 中 不 随 运行 时 间 的 长 短 而 发 生变 化 ,实时 进程 的 prio 参 
数 将 始终 保持 不 变 , 而 不 随 进 程 在 CPU 的 平均 睡眠 时 间 而 改变 。 如 果 程 序 员 需 要 对 实时 进程 
的 优先 权 prio 参数 进行 调整 时 ， 必须 使 用 sched ”setscheler 或 者 sched setparam 系统 调 用 才 

能 改变 prio 参数 。 

当 一 个 进程 为 普通 进程 时 ,prio 参数 的 计算 较为 复杂 。 在 进程 创建 时 ,prio 参数 将 继承 父 
进程 的 normal _ prio 参数 的 值 。 这 里 提醒 读者 注意 :在 Linux 2.6 的 后 期 版 本 创建 新 进程 时 使 
用 normal _ prio 参数 而 不 是 prio 参数 将 父 进 程 的 优先 权 传 递 给 子 进程 。 在 绝 大 多 数 情况 下 ， 
normal _ prio 参数 与 prio 参数 的 值 相同 。 本 书 将 在 下 文 介绍 normal _ prio 参数 。 

普通 进程 的 prio 参数 随 着 进程 在 CPU 中 的 平均 睡眠 时 间 的 长 度 而 发 生变 化 。 所 谓 平均 
睡 虑 时间 是 指 进程 在 CPU 中 睡眠 的 平均 值 ,Linux 系统 的 进程 描述 符 使 用 sleep _ avg 参数 记 
录 此 值 。 普 通 进程 根据 sleep _ avg 参数 ,为 普通 进程 设立 一 个 临时 变量 bonus, bonus 的 值 与 进 
程 的 sleep _ avg 参数 有 关 。 

TI 了 


普通 进程 使 用 _normal _ prio 函数 计算 prio 参数 和 bonus 变量 。_normal _prio 函数 的 定 
义 在 . /kernel/sched.c 文件 中 。 


stabc inline int _ normal _ prio(struet task _ struct * p) 
| 
int bonus, prio; 
bonus = CURRENT BONUS(p) - MAX BONUS 7 2; 
prio = p->static _ pnio - bonus; 
if (prio < MAX RT _ PRIO) 
prio = MAX_ RT_ PRIO:; 
if (prio > MAX PRIO1) 
prio = MAX PRIO-1; 
return prio; 
| 
在 这 上段 程序 中 ,首先 调用 宏 CURRENT_ BONUS(p) - MAX _ BONUS /2 获得 当前 进程 
的 bonus 参数 。 其 中 MAX BONUS 的 值 为 bonus 变量 可 能 的 最 大 值 , 该 值 为 0， 因此 bonus 
变量 的 值 为 CURRENT _BONUS(p)-5。 之 后 这 段 程序 根据 进程 的 static _ prio 参数 调整 当前 
进程 的 prio 参 数 ,并 保证 所 得 到 的 prio 参数 在 100 一 139 之 间 。 宏 CURRENT _ BONUS 和 一 
些 与 其 相关 的 宏 的 定义 在 . /kernel/sched.c 文件 中 。 


#define CURRENT _ BONUS(p) \ 
(NS_ TO_ JIFFIES((p)->sleep_avg) * MAX BONUS /MAX SLEEP_AVG) 


Hdefine MAX_ BONUS (MAX _ USER_ PRIO * PRIO_ BONUS_ RATIO / 100) 
#define MAX_ SLEEPP_AVG (DEF_ TIMESLICE * MAX BONUS) 

#define MAX USER_ PRIO (USER_ PRIO(MAX _PRIO) ) 

#define USER _ PRIO(p) ((p)-MAX RT PRIO) 


# define DEF _ TIMESLICE (100 * HZ / 1000) 
Hdefine MAX_ BONUS (MAX _ USER _ PRIO * PRIO_ BONUS_ RATIO /100) 


#define PRIO_ BONUS RATIO25 
根据 这 些 宏 定 义 ,我 们 可 以 通过 简单 的 运算 ,获得 宏 MAX BONUS 和 宏 CURRENT _ 
BONUS(p) 的 计算 公式 . 宏 MAX _ SLEEP AVG 与 MAX BONUS 有 关 , 我 们 在 这 里 也 给 
出 宏 MAX SLEEP AVG 的 计算 公式 。 
MAX BONUS = (MAX USER PRIO * PRIO BONUS RATIO /100) 
= ((USER PRIO(MAX PRIO}) * 25) / 100 
= (MAX PRIO- MAX_ RT _ PRIO) * 25 /00 
= 40x 25 /7/100 = 10 
CURRENT _ BONUS(p) = NS_ TO_JIFFIES((p) >sleep_ avg) * 10 /HZ 
= ((p->sleep _ avg) / (1,000,000,000 / HZ)) * 10 7 HZ 
= p->sleep _ avg/100,000.,000 (ns) = p->sleep _ avg/ 100 (ms) 
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MAX_ SLEEP_ AVG = DEF_ TIMESLICE x* MAX_ BONUS 
= (100 x HZ /1000) * MAX_ BONUS 

(100 * HZ /1000) * 10 

= 1HZ 


这 些 计算 公式 使 用 的 "HZ” 表 示 Linux 系统 时 钟 的 频率 , 即 每 秒 钟 Linux 系统 可 以 产生 多 
少 次 系统 时 钟 异常 。“HZ” 可 以 在 “make menuconfig "命令 配置 Linux 源 代 码 时 初始 化 。 在 
Linux PowerPC 中 ,HZ 可 以 被 设置 为 100,230 或 者 1000。 
通过 以 上 计算 ,可 以 发 现 bonus 变量 和 prio 参数 的 值 与 sleep _ avg 参数 相关 。 在 _ normal 
pri 函数 中 的 bonus 变量 与 prio 参数 的 值 如 下 所 示 








由 以 上 这 些 公 起 ,可 以 得 出 以 下 结论 : 

@ 进程 的 sleep _ avg 参数 在 0 一 99 ms 内 时 ,bonus 为 - $,prio 参数 为 static _ prio + 5。 

e@ 进程 的 sleep _ avg 参数 在 100 一 199 ms 内 时 ,bonus 为 一 4,prio 参数 为 static_prio + 4。 
@ 进程 的 sleep _ avg 参数 在 200 一 299 ms 内 时 ,bonus 为 一 3,prio 参数 为 static _ prio + 3。 


@ 进程 的 sleep _ avg 参数 在 800 一 899 ms 内 时 ,bonus 为 3,prio 参数 为 static _ prio 一 3。 

@ 进程 的 sleep _ avg 参数 在 900 一 999 ms 内 时 ,bonus 为 4,prio 参数 为 static _ prio 一 4。 

e@ 进程 的 sleep _ avg 参数 等 于 1000 ms 时 ,bonus 为 5,prio 参数 为 static _ prio 一 5。 注 意 

在 Linux 系统 中 进程 的 sleep avg 参数 不 会 大 于 1000 ms。 

由 此 我 们 可 以 发 现 一 个 普通 进程 的 prio 参数 可 以 在 static _ prio 一 5 一 static+5 之 间 变 化 , 
但 是 无 论 prio 参数 如 果 变 换 , 其 值 一 定 在 100 一 1395 之 间 。 同 时 我 们 也 可 以 发 现 ,对 于 两 个 普 
通 进程 ,只 要 进程 Pl 的 static _ prio 参数 大 于 进程 P2 的 static _ prio 参数 + 10 ,那么 在 Linux 
系统 中 ,进程 P1 的 优先 权 一 定 大 于 进程 P2 的 优先 权 。 

4. normal _ prio,pi _ lock 和 pi_waiters 参数 

normal _ prio,pi_ lock 和 pi waiters 参数 的 主要 作用 是 处 理 进 程 的 优先 权 更 迭 (Priority 
Inversion)。Linux 系统 使 用 优先 权 继 承 (Priority Inherit) 方 法 处 理 进程 的 优先 权 更 迭 。 在 一 
个 实时 系统 中 ,发 生 进程 优先 权 更 迭 的 可 能 性 更 大 。 在 Linux 系统 中 ,优先 权 继 承 这 一 方法 主 
要 针对 实时 进程 。 

normal _ prio 参数 用 来 保存 进程 的 正常 优先 权 。pi _ waiters 参数 的 意义 将 在 下 文 详细 介 
绍 ,而 pi _ lock 参数 用 来 保护 对 pi _ waiters 参数 的 访问 。 在 介绍 pi _ waiter 参数 之 前 ,我 们 首 
先 需 要 对 进程 的 优先 权 更 迭 和 优先 权 继 承 这 两 个 概念 进行 简单 说 明 。 

假设 在 一 个 支持 进程 抢占 的 操作 系统 中 运行 着 三 个 进程 ,分 别 为 进程 A,B 和 C, 其 中 进程 A 
的 优先 权 最 高 ,进程 B 的 优先 权 次 之 ,而 进程 C 的 优先 权 最 低 。 在 一 般 情况 下 ,进程 A 能 够 对 进 
程 了 进行 抢占 ,而 进程 了 能够 对 进程 C 进 行 抢 占 ,而 不 会 发 生 进程 抢占 进程 A 的 情况 。 但 是 
在 某 种 情况 下 ,进程 也 能 够 通过 抢占 进程 C 的 执行 而 间接 抢占 进程 A。 如 图 5-4 所 示 。 

图 5-4 中 一 共有 3 个 进程 ,分 别 为 A,B,C。 其 中 进程 A 的 优先 权 最 高 ,进程 B 次 之 ,而 进程 
C 的 优先 权 最 低 。 假 定 进 程 A,B 和 C 运 行 在 一 个 允许 抢占 的 操作 系统 中 ,并 按照 以 下 顺序 执行 : 
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进程 C 









不 能 获得 锁 资 


进程 A 源 a， 睡 眼 










执行 完毕 或 者 
进入 睡眠 状态 ， 
释放 CPU | 


进程 B 






Timel Time2 Time3 Time4 Tines 
图 5-4 优先 权 更 迭 的 例子 


(1) 进程 C 首先 获得 CPU 资源 ,在 Timel 时 刻 开始 运行 ,并 获取 一 个 互 斥 锁 “之 后 访问 
互 斥 锁 保 护 的 临界 数据 。 

(2) 在 Time2 时 刻 ,进程 A 开始 执行 ,此 时 由 于 进程 A 的 优先 权 大 于 进程 C 的 优先 权 ， 因 
此 进程 A 将 抢占 进程 C 使 用 的 CPU 资源 ,并 执行 进程 A 的 程序 。 如 果 进 程 A 也 需要 访问 互 
斥 锁 a 保护 的 临界 段 ,由 于 互 斥 锁 a 已 经 被 进程 C 使 用 ,因此 进程 A 将 进入 睡眠 状态 ,等 待 进 
程 C 释放 互 斥 锁 a。 1 

(3) 而 在 Time3 时 刻 , 进 程 B 开始 执行 ,此 时 进程 C 并 没有 释放 互 斥 锁 a, 因 此 进程 A 不 
-会 被 唤醒 。 此 时 在 当前 系统 中 进程 B 的 优先 权 最 高 ,于 是 进程 B 将 抢 进程 C 使 用 的 CPU 
资源 ,并 执行 进程 B 的 程序 。 

(4) 进程 A 将 在 系统 中 等 待 ， 孔 到 进程 B 执行 完毕 或 者 进入 睡眠 状态 释放 CPU 资源 后 ， 
才能 继续 执行 。 

(5) 在 Time4 时 刻 ,进程 B 释放 CPU 资源 ,此 时 进程 C 将 获得 CPU 资源 ,继续 执行 并 释 
放 互 斥 锁 a。 此 时 进程 A 被 唤醒 ,继续 执行 程序 。 

从 以 上 过 程 我 们 可 以 发 现 , 由 于 进程 A 在 等 待 进程 C 释放 互 斥 锁 a 而 一 直 处 于 睡眠 状 
态 。 此 时 其 他 进程 ,只 要 其 优先 权 大 于 进程 C 的 优先 权 ( 尽管 其 优先 权 可 能 小 于 进程 A 的 优 
先 权 ) ,就 可 以 抢占 进程 C 的 运行 ,事实 上 也 抢占 了 进程 A 的 运行 。 这 种 低 优先 权 的 进程 可 以 
抢占 高 优先 权 的 进程 运行 的 行为 ,被 称 为 优先 权 更 迭 。 

在 操作 系统 设计 过 程 中 ， 和 可 以 采取 许多 种 方法 解决 这 各 优先 权 更 选 的 问 题 。 
采用 优先 权 继承 的 方法 可 以 有 效 地 解决 这 种 “优先 权 更 迭 ” 的 问题 。 

所 谓 优先 权 继 承 ”, 是 指 低 优先 权 的 进程 可 以 暂时 获得 较 高 的 优先 权 , 以 避免 被 其 他 进程 
抢占 ,从 而 有 效 地 避免 了 优先 权 更 适 的 发 生 。 下 文 将 以 Linux 系统 为 例 阅 要 说 明 优先 权 继 
承 的 实现 。 

由 上 文 可 知 ,优先 权 较 高 的 进程 在 没有 获得 互 斥 锁 进 行 休 眠 时 ,有 可 能 发 生 : :优先 权 更 渤 ” 的 
现象 。 为 此 Linux 系统 设置 了 专门 的 互 斥 锁 rt _ mutex 处 理 “ 优 先 权 更 迭 ”。 程 序 员 可 以 使 用 上 
mutex _ lock 获得 互 斥 锁 rt， mutex, 使 用 rt _ mutex _ unlock 函数 释放 互 斥 锁 rt muitex。 
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“使 用 rt_ mutex _l6ck 困 数 获得 互 斥 锁 rt_mnutex 时 ,需要 做 一 系列 的 检查 。 如 果 调 用 rt _ 
mutex _ lock 函数 的 进程 ,其 优先 权 大 于 pi， waits 链表 中 进程 的 最 大 优先 权 , 则 使 用 当前 进程 
的 优先 权 , 履 盖 在 pi _ waits 参数 中 等 待 进 程 的 最 大 优先 权 。Linux 系统 中 ,可 能 存在 多 个 进程 
等 竺 同一 个 互 斥 锁 rt _ mutex 被 释放 ,每 当 一 个 新 的 进程 需要 获得 此 互 斥 锁 时 ， 将 可 BE 提 高 当 

前 拥有 此 互 帮 锁 rt_mautex 进程 的 优先 权 prio, 以 避免“ 优先 权 更 迭 ”。 

“使 用 rt_mutex _unlock 函数 释放 互 斥 锁 rt_ mutex 时 ， 将 使 用 rt_ mautex lock 函数 提 训 
的 进程 优先 权 prio 还 原 。 

下 文 将 结合 本 市 发 生 “ 优 先 权 更 迭 现象 ”的 实例 ,说 明 Linux 系统 如 何 条 用 优先 权 继承 
的 方法 避免 “优先 权 更 和 迭 现 象 " 的 发 生 。 

(1) 进程 C 首先 获得 CPU 资源 ,在 Timel 时 刻 开 始 运行 ， 并 获取 一 个 Nirt _ mutex x 关 型 站 
互 斥 锁 a, 之 后 访问 对 互 斥 锁 保 护 的 临界 数据 。 

(2) 在 Time2 时 刻 , 进 程 A 开始 执行 ,此 时 由 于 进程 A 的 优先 权 大 于 进程 C ,的 优先 权 , 因 
此 进程 A 将 抢占 进程 C 使 用 的 CPU 资源 ,并 执行 进程 A 的 程序 。 此 时 进程 A 调用 rt_ mutex 

_ lock 函数 试图 获得 互 斥 锁 a, 并 将 进程 C 的 优先 权 提升 ， 使 其 等 效 于 进程 A 的 优先 权 。 由 于 
互 斥 锁 a 正在 被 进程 C 使 用 ,于 是 进程 A 将 进入 睡眠 状态 ,等 待 进程 C 释 放 互 斥 锁 a。 

(3) 而 在 Time3 时 刻 ,进程 了 B 开 始 执行 。 此 时 进程 B 的 优先 权 小 于 进程 A、C 的 优先 权 ， 

因此 进程 B 将 不 会 获得 CPU 资源 。 此 时 进程 B 将 在 系统 中 等 得 。 
(4) 在 Time4 时 刻 ,进程 释放 互 斥 锁 a, 此 时 进程 C 的 优先 权 将 被 恢复 。 之 后 进程 A 而 
不 是 进程 了 将 获得 CPU 资源 ,继续 执行 。 
(5) 在 Time5 时 刻 ， 进程 A 释放 CPU 资源 ， 进程 B 将 获得 CPU 资源 开始 执行 。 访 过 程 
见 图 5-5。 











”数据 进 广 
行 操作 | 
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进程 A 一 一 一 一 “ 锁 资 源 a， 










获得 CPU 
| 续 执行 





Timel Time2 下 ime3 Time4 Tiine5 
图 5- 5 优先 权 继承 的 例子 
“由 以 上 分 析 ， 我 们 发 现 采 用 ， “优先 权 继 承 ” 的 方法 可 以 有 效 解决 ,优先 权 更 迁 问题 。 但 是 
使 用 ' 优先 权 继 承 ” 的 方法 时 ， 进程 A 的 优先 权 , 即 prio 才 参数 ， 将 会 被 暂时 提高 。 为 此 Linux 系 


统 设置 了 normal _ prio 参数 ， 当 prio 参 参数 因为 使 用 “优先 权 继承 方法 暂时 改变 了 prio 参数 时 ， 
normal _ prio 参数 依然 保持 不 变 。 
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Linux 系统 创建 子 进 程 时 ,其 子 进程 的 prio 参数 从 normal prio 参数 中 获得 ,而 不 使 用 父 
进程 的 prio 参数 ,从 而 有 效 地 避免 了 将 父 进程 中 已 经 被 提升 的 prio 参数 传递 给 子 进程 。 

本 市 中 有 关 “ 优 先 权 继 承 "的 内 容 ,仅仅 讲述 了 一 些 最 基本 的 一 些 知识 。Linux 系统 的 rt _ 
mutex 实现 机 制 比较 复杂 ,本 书 不 再 详细 这 部 分 源 代码 。 

Linux 系统 有 关 rt _ mutex 的 源 代码 在 . /kernel/remutex.c 和 . /include/Ninux/rtmutex.h 
文件 中 。 对 此 有 兴趣 的 读者 可 以 结合 . /Documentation/rt-mutex-design. txt 文件 ,详细 了 解 有 
天 Linux 系统 rt _ mutex 的 实现 。 

5. ioprio 参数 

ioprio 参数 存放 进程 的 IMO 优先 权 - 在 Linux 2.6.13 版 本 之 后 的 内 核 支持 进程 的 1/O 优 
完 权 , 系 统 程序 员 可 以 通过 修改 /sys/block/< device > /queue/scheduler 文件 设置 < device> 设 
备 的 LMO 调度 器 。 如 以 下 代码 将 hda, 即 硬盘 设备 hda 的 IZO 调度 器 ,设置 为 CFQ. 

# echo cfq > /sys/block/hda/gqueue/scheduler 
目前 Linux 系统 只 支持 CFQ( Completely Fair Queuing) 类 型 的 1/O 调度 器 。CFQ 定义 了 
以 下 三 种 级 别 的 1/O 类 型 : 
9 IOFRIO_ CLASS_ RT。ioprio 参数 为 此 值 时 ,该 进程 访问 1/O 设备 时 具有 最 高 的 优 
先 级 

e IOPRIO_ CLASS_ BE。ioprio 参数 为 此 值 时 ,表示 系统 采取 一 种 相对 公平 的 策略 访问 
相应 的 IMO 设备 ,并 保证 所 有 的 进程 都 有 机 会 访问 到 IMO 设备 。 这 种 类 型 也 是 ioprio 
参数 使 用 的 缺 省 值 . 

® IOPRIO_CLASS_ IDLE。ioprio 参数 为 此 值 时 ,表示 该 进程 只 有 在 其 他 进程 都 不 访问 
此 LMD 设备 时 ,才能 对 此 IMO 设备 进行 访问 ， 

Linux 系统 通过 ioprio _get 和 ioprio set 系统 调用 获得 和 设置 进程 的 ioprio。Linux 系统 
中 [I/O 调度 器 较为 复杂 ,对 此 感 兴趣 的 读者 可 以 首先 阅读 . /documentation/block /ioprio. txt 
文件 获取 I/O 调度 器 的 一 些 人 门 知识 ,之 后 再 分 析 . /fs/ioprio.c 文件 以 获得 I/O 调度 器 的 实 
现 细 市 知识 。 

6. time _ slice,first _ time _ slice 参数 

Linux 系统 根据 进程 的 static _ DO 参数 为 进程 分 配 运 行 时 间 片 ， 而 使 用 time _ slice 参数 
保存 这 个 “运行 时 间 片 "。 当 进程 使 用 CPU 时 , “运行 时 间 片 ”将 以 Jiffy 为 单位 递减 。Jiffy 是 
Linux 系统 中 的 一 个 基本 的 时 间 单 位 ,Jiffy 和 时 间 (ns) 的 换算 如 下 所 示 : 

#define NS_ TO _ JIFFIES(TIME) ((TIME) / (1000000000 / HZ)) 
# define JIFFIES_ TO_ NS(TIME) ((TIME) * (1000000000 / HZ)) 

当 time _slice 参数 为 0 时 ,表示 Linux 系统 分 配给 该 进程 的 时 间 片 消耗 完毕 ,此 时 进程 将 
会 很 快 地 让 出 CPU 资源 。 在 进程 使 用 完 当 前 的 时 间 片 后 ,Linux 系统 将 该 进程 放 人 就绪 队 
列 ,然后 为 该 进程 重新 分 配 一 段 “ 运 行 时 间 片 ”。Linux 系统 将 会 选择 调度 时 机 重新 将 该 进程 
运行 ,然后 周而复始 ,直到 该 进程 运行 结束 

init _ task 进程 是 Linux 系统 中 第 一 个 进程 ,该 进程 的 time slice 参数 在 Linux 系统 初始 
化 时 被 静态 初始 化 。 读 者 在 . /include/inux/init _ task.h 文件 的 宏 INIT TASK 中 找到 有 关 
time _ slice 参数 的 定义 ， 
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# define INIT _ TASK(tsk) \ 

| 
.state = 0， \ 
.thread _ info = 全 init _ thread _ info, \ 
.usage = ATOMIC_ INIT(2), \ 
.flags = 0， 
.lock _ depth = -1， \ 
pro = MAX% PRIO-20, \ 
.static _ prio = MAX PRIO-20, \ 
.normal _prio = MAX PRIO20, \ 
.policy = SCHED_ NORMAL, \ 
.cpus_ allowed = CPU_ MASK _ ALL. \ 
.mm = NULL, \ 
.active_ mm 三 上 init _ mm, AN 
.time_ slice = HZ, 有 


| 


Linux 系统 使 用 宏 INIT ”TASK 初始 化 init _ task 的 进程 描述 符 。 由 上 文 所 示 ,rime _ 
slice 参数 为 HZ 个 Jiffies。Linux 系统 中 使 用 HZ 为 init _task 进程 的 time _ slice 赋值 有 时 会 引 
起 读者 的 误解 ,因为 HZ 的 本 意 用 来 表示 Linux 系统 时 钟 的 频率 。 因 此 直接 使 用 HZ 从 逻辑 上 
说 类 型 并 不 匹配 。Linux 系统 赋予 init _ task 进程 的 执行 时 间 是 1 秒 钟 ,因此 使 用 宏 NS_ TO 
_JIEFFIES(1.000,000,000) 定 义 init _ task 进程 的 time _ slice 参数 会 更 准确 ,也 更 容 急 理解 
Et 

在 Linux 系统 中 ,除了 init _ task 进程 ,其 他 进程 都 是 由 其 父 进程 创建 出 来 的 ,这 些 进 程 都 
要 使 用 sched _fork 函数 初始 化 time _ slice 参数 。 在 sched _ fork 函数 中 ,父子 进程 将 平分 父 进 
程 的 time _slice 参数。 以 下 代码 中 p 表示 子 进程 ,current 表示 父 进程 。sched _ fork 函数 中 与 
time ”slice 参数 有 关 的 代码 如 下 所 未: 


P->time_alice = (current-> time_ slice + 1) > 1; 
p>first_ time_ slice = 1; 
current- >time slice 之 之 三 1; 
if (unlikely(! current->time_ slice)) | 
current- >time_ slice = 1; 
scheduler _ tick( ); 
由 上 述 代 码 ,读者 可 以 发 现 sched _fork 函数 将 父 进程 的 time _ slice 参数 的 一 半分 给 子 进 
程 的 time slice 参数 ， 
当 父 进程 的 time slice 参数 为 1 时 ,通过 上 述 代码 计算 出 子 进程 的 time _ slice 参数 为 1， 
而 父 进 程 将 使 用 完毕 自己 本 次 的 时 间 , 其 time _ slice 参数 为 0。 此 时 sched _ fork 图 效 将 苦 用 
scheduler _tick 函数 将 父 进 程 需 要 重新 调度 标志 TIF _ NEED _ RESCHED 赋值 为 1 ,然后 选择 
合适 时 机 使 父 进程 让 出 CPU。 有 关 scheduler _ tick 函数 的 详细 说 明 ,请 参考 5.4.2 琅 : 
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在 创建 子 进程 的 过 程 中 , 父 进程 将 自己 的 时 间 片 分 配给 子 进程 ,从 而 保证 了 父子 进程 占用 
的 总 时 间 片 不 变 ， 

first _ time _ slice 参数 表示 子 进程 在 创建 时 从 父 进 程 获得 的 时 间 片 是 否 使 用 完毕 ,为 1 表 
示 该 进程 获得 的 时 间 片 仍 有 剩余 ,为 0 时 表示 首次 获得 的 时 间 片 已 经 使 用 完毕 。 在 子 进程 初 
始 化 时 ,first _ time _ slice 的 值 被 父 进 程 的 sche _fork 函数 置 为 1 ,并 对 子 进程 的 time slice 盆 
效 赋 初 从 。 

当 进 程 首 次 获得 的 时 间 片 time _ slice 随 着 进程 的 运行 递减 为 0 时 ,Linux 系统 将 first _ 
time _ slice 参数 置 为 0, 随后 Linux 系统 的 调度 程序 将 很 快 中 止 该 进程 的 运行 。 

Linux 系统 设置 first _ time _ slice 参数 的 主要 作用 是 帮助 父 进 程 回收 子 进 程 的 剩余 时 间 
片 。 有 时 子 进程 的 运行 时 间 十 分 短暂 ,甚至 在 没有 使 用 完 父 进程 给 予 的 第 一 个 运行 时 间 片 ,就 
已 经 执行 完毕 。 此 时 在 子 进程 结束 并 调用 sched ”exit 函数 时 ,需要 利用 first _ time slice 参 
数 将 子 进程 未 用 完 的 时 间 片 回收 ， 

sched _ exit 函数 中 使 用 first _ time _slice 的 详细 源 代 码 如 下 : 


if (p->first_ time_ slice && task_cpu(p) = = task_ cpu(p->parent)) | 
Pp->parent->time_ slice + = p>time_ slice; 
if (unlikely(p- > parent->time_ slice > task _ timeslice(p))) 
PpP->parent->time_ slice = task _ timeslice(p); 
| 
由 上 述 源 代码 所 示 , 当 进程 描述 符 的 first _ time _ slice 为 1, 且 父子 进程 在 同一 个 CPU 中 
二 行 时 , 父 进程 将 回收 子 进 程 未 使 用 完 的 时 间 片 。 父 进程 在 回收 完 子 进程 剩余 的 时 间 片 后 ,如 果 
其 剩余 时 间 片 大 于 task _timeslice(p) 时 , 则 将 父 进程 的 剩余 时 间 片 的 值 置 为 task _ timeslice(p) 。 
在 Linux 系统 中 ,进程 使 用 完 父 进程 给 予 的 时 间 片 后 ,使 用 task _ timeslice 函数 根据 该 进 
程 的 static _ prio 参数 重新 对 time _ slices 参数 赋值 ,task timeslice 函数 在 . /kernel/sched.c 文 


static inline unsigned int task _ timeslice(struct task _ struct *p) 
| 
retum static _ prio_ timeslice(p- > static . prio); 


| 


static unsigned int static _ prio_ timeslice(int static _ prio) 
1 
if (static_ prio < NICE_ TO_ PRIO(0)) NICE_ TO PRIO(O) = 120 
return SCALE _ PRIO(DEF _ TIMESLICE * 4, static prio); 
else 
retum SCALE_ PRIO(DEF _ TIMESLICE, static _ prio); 
| 


#define SCALE PRIOGO(x，prio) \ 
max(x * (MAX PRIO - prio) / (MAX _ USER PRIO /2), MIN_ TIMESLICE) 
由 以 上 代码 ,读者 可 以 发 现 ,task _ timeslice 函数 的 返回 值 ,只 与 进程 的 static prio 参数 
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有 关 。 

@ 当 static _prio 小 于 120 时 ,p->time slice = max(20* (140 - p->static _ prio), 5) 

@ 当 static _ prio 大 于 等 于 120 时 ,p- >time slice = max(Sx (140 - p->static prio), 5) 

以 上 关于 time _ slice 参数 的 说 明 主 要 针对 Linux 系统 中 的 普通 进程 。 对 于 实时 进程 time 
_ slice 参数 的 值 与 进程 所 采用 的 调度 算法 有 关 。 当 该 进程 采用 SCHED _ FIFO 算 法 时 ,time _ 
slice 参数 的 值 设 有 意义 , 当 进 程 采 用 SCHED _ RR 算法 时 ,time _ slice 参数 的 计算 与 普通 进程 
相同 。 

由 上 分 析 可 以 得 出 ;在 Linux 系统 中 ,进程 的 static _ prio 参数 在 很 大 程度 上 决定 了 该 进程 
在 系统 中 运行 时 间 的 比例 。 进 程 运行 时 ,tme _ slice 参数 将 不 断 递 减 , 等 到 该 值 为 0 时 ,time _ 
slice 参数 将 会 被 重 值 ， 

7 ,timestamp 参数 

进程 描述 符 的 timestamp 参数 保存 当前 进程 最 近 一 次 使 用 CPU 的 时 间 堆 。Linux 系统 中 
使 用 sched _ clock 国 数 获得 当前 时 间 惟 ,timestamp 参数 是 一 个 unsigned long long 类 型 ,Linux 
PowerPC 可 以 使 用 PowerPC 内 部 的 TB(Time Base Register) 或 者 外 部 的 RTC 获得 当前 系统 
的 时 间 惟 

Linux 系统 使 用 timestamp 参数 计算 该 进程 的 睡眠 时 间 以 及 在 CPU 中 的 运行 时 间 。 在 
Linux 系统 中 ,系统 程序 员 可 以 使 用 当前 CPU 的 时 间 戳 减 去 该 进程 的 timestamp 参数 获得 当 
前 进程 的 睡眠 时 间 以 及 当前 进程 在 CPU 中 的 运行 时 间 

8. run _ list 参数 和 array 参数 

一 个 进程 在 加 入 到 进程 运行 队列 RQ(Run Queue) 后 , 才 可 以 接受 Linux 系统 的 调度 . 进 
程 运行 队列 是 进程 调度 中 的 一 个 重要 概念 , 见 本 书 的 5.4.1 0。 

进程 描述 符 使 用 list _head 结构 描述 run _list 参数 。 进 程 使 用 run _list 参数 将 其 加 入 到 
进程 运行 队列 ,等待 Linux 系统 的 进程 调度 , 当 进 程 随 虐 时 ,该 进程 将 从 进程 运行 队列 中 脱离 ， 
即 从 进程 运行 队列 中 将 进程 描述 符 的 run _ list 参数 摘 际 。 

当 进 程 加 入 到 进程 运行 队列 后 ,array 参数 将 加 入 到 进程 运行 队列 RQ 中 。 当 进程 为 普通 
进程 时 ,array 参数 将 指向 进程 运行 队列 RQ-~active 队列 , 当 进 程 为 批 处 理 进程 时 ,array 参数 
将 指向 进程 运行 队列 RQ>expired 队列 。 

这 段 代码 在 .activate _ task 函数 中 ,该 函数 在 . /kernel/sched.c 文件 中 。 


static void _ activate _ task( struct task _ struct * p, struct rg * rq) 
| 
struct prio_ array * target = rg- > active; 
i{f {batch _ task(p)) 
target = rg->expired; 
engueue _ task(p, target); 
ine_ nr_ running(p, rg); 
| 
_activate _task 函数 首先 判断 当前 进程 是 否 为 批 处 理 进 程 ,如 果 是 , 则 将 target 变量 赋值 
为 rq—*active, 否则 将 target 变量 赋值 为 rq—*expired. 之 后 调用 enqQueue _ task 函数 将 进程 P 加 
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和 人 到 rq->active 或 者 rq-~>expired 中 。enqueue _task 函数 在 . /kernel/sched.c 文件 中 ,其 源 代 
码 详解 见 5.4.12 节 。 

要 充分 理解 进程 描述 符 的 run _ list 参数 和 array 参数 ,首先 需要 深入 理解 Linux 进程 运行 
队列 的 详细 结构 。 在 此 ,读者 只 要 记 住 进程 描述 符 中 包含 这 两 个 参数 即 可 。 

9. Sleep _ avg 与 sleep _ type 参数 

Linux 系统 中 有 一 些 进 程 需要 较 高 的 交互 式 级 别 ,如 我 们 在 Linux 系统 中 经 常 使 用 的 
shell 进程 。shell 进程 在 绝 大 部 分 时 间 要 等 待 用 户 的 输入 命令 ,在 用 户 输入 命令 后 ,shell 进程 
将 司 动 相 应 的 进程 执行 ,之 后 继续 等 待 用 户 再 次 输入 命令 。shell 进程 需要 具有 较 高 的 响应 速 
度 ,但 是 不 需要 有 太 多 的 运行 时 间 。 为 了 处 理 这 类 进程 交互 式 进 程 ,进程 描述 符 中 设置 了 
sleep _ avg 和 sleep type 参数 。 

sleep _ avg 参数 表示 进程 的 平均 睡眠 时 间 ,该 值 与 进程 的 prio 参数 直接 相关 。Linux 系统 
的 普通 进程 ,其 sleep _ avg 参数 越 大 ,prio 参数 的 值 越 低 。prio 参数 的 值 可 以 根据 sleep _ avg 
参数 进行 动态 调整 。 此 外 sleep _ avg 参数 还 与 进程 的 交互 式 级 别 有 关 。 

Linux 系统 使 用 sleep _ type 参数 保存 进程 的 交互 式 级 别 。 进 程 描 述 符 的 sleep _type 参数 
可 以 为 SLEEP_ NONINTERACTIVE.、SLEEP _ INTERRUPTED SLEEP _ INTERACTIVE 
和 SLEEP _ NORMAL ,这些 参数 将 在 下 文 详细 解释 。 

在 Linux 系统 中 ,sleep avg 参数 的 取 值 范围 为 0~NS_MAX_SLEEP_ AVG, 其 单位 为 
ns。NS_ MAX _ SLEEP_AVG 的 值 的 计算 如 下 所 示 : 


NS_ MAX_ SLEEP_AVG 
= (JIFFIES_ TO_ NS(MAX SLEEP AVG)) 
= MAX_ SLEEP_AVG * 1000000000 /Hz 
= HZ * 1000000000 / HZ 
= 1000000000 (ns) 
= 1 (s) 


当 进程 获得 CPU 运行 后 ,sleep _ avg 参数 的 值 将 不 断 减少 ,直到 其 值 为 0。 注意 , 当 进 程 
放弃 CPU ,进入 睡眠 状态 时 ,sleep _ avg 参数 将 一 直 保持 不 变 , 而 当 进程 重新 获得 CPU, sleep 
avg 参数 才 会 被 重新 计算 。 重 新 计算 的 结果 当然 是 随 着 进程 在 CPU 中 睡眠 的 时 间 越 长 ,其 
sleep _ avg 参数 的 值 越 大 。 

再 次 强调 , 当 进 程 睡 眠 时 ,sleep _ avg 参数 不 会 发 生变 化 。 这 是 因为 Linux 系统 只 能 通过 
scheduler _ tick 函数 调整 当前 进程 使 用 的 sleep _ avg 参数 ,而 不 能 调整 处 于 睡眠 状态 的 进程 的 
sleep _ avg 参数 ,scheduler _ tick 函数 是 Linux 进程 调度 的 核心 ,其 详细 说 明 见 5.4.2 节 。 

sleep _ avg 参数 的 计算 较为 复杂 ,下 文 将 对 此 详细 分 析 。 

对 于 Linux 系统 的 init _ task 进程 ,进程 描述 符 的 sleep _ avg 参数 没有 什么 意义 ,但 是 对 于 
其 他 进程 的 意义 重大 。 父 进程 创建 子 进程 时 ,Linux 系统 将 会 调用 do _ fork 函数 ,do_fork 函 
数 将 会 调用 wake _ up _ new _ task 函数 设置 子 进程 的 sleep _ avg。wake_ up _ new _ task 函数 
除了 可 以 设置 子 进程 的 sleep _ avg 参数 外 ,还 可 以 完成 其 他 其 他 操作 ,该 函数 的 详细 说 明 见 
5.3.1 市 。wake _ up _ new _task 函数 使 用 以 下 公式 计算 父子 进程 的 sleep .avg 参数 ， EF 
公式 中 ,p 表示 子 进 程 ,current 表示 父 进 程 。 
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并 define CHILD PENALTY 95 
#define PARENT PENALTY 100 


JIFFIES_ TO_ NS(CURRENT __ BONUS(p)) 
= JIFFIES_ TO_NS (NS _ TO_ JIFFIES((p)- >sleep _ avg) 
* MAX BONUS/MAX SLEEP_ AVG) 
= (p->sleep_avg) * MAX BONUS /MAX SLEEP AVG 


p-~>sleep_ avg = JIFFIES_ TO_ NS(CURRENT _ BONUS(p) * 
CHILD_ PENALTY /100 * MAX SLEFP_AVG /MAX_ BONUS); 
= ((p>sleep_avg) * MAX BONUS/MAX SLEFP AVG)) * 
(CHILD_ PENALTY /100 * MAX SLEEP_AVG /MAX BONUS)) 
= (p->sleep_ avg) * CHILD_ PENALTY 7 100 
= (p->sleep_ avg) * 95 /00 


current- >sleep _ avg = JIFFIES_ TO_ NS(CURRENT BONUS(current) * 
PARENT_ PENALTY /100 * MAX_ SLEEP_ AVG / MAX_ BONUS) 
= (p>sleep_avg) * PARENT PENALTY /100 
= p-~>sleep_ avg 
通过 以 上 公式 ,我 们 可 以 发 现 父 进程 创建 子 进程 后 , 子 进 程 的 sleep ”avg 参数 将 会 被 改 
变 ,而 父 进 程 的 sleep _ avg 参数 保持 不 变 ， 
在 Linux 系统 中 ,除了 wake _ up new _ task 函数 ,进程 调度 函数 schedule 和 activate 
task 函数 (该 函数 的 主要 功能 是 将 进程 加 入 到 进程 运行 队列 中 ) 也 会 根据 进程 在 CPU 中 的 睡 
眠 时 间 调 整 sleep _ avg 参数 ， 这 些 函 数 最 终 都 会 调用 recalc -task _prio 函数 计算 进程 的 sleep 
_ avg 参数 . 
recalc _ task _ prio 函数 的 源 代码 在 . /kernel/sched.c 文件 中 。 该 函数 的 主要 功能 是 计算 
进程 描述 符 的 sleep _ avg 参数 ,然后 使 用 sleep _ avg 参数 的 值 计算 进 程 的 prio 和 normal prio 
参数 。 该 函数 的 源 代码 详解 如 下 : 
static int recalc_ task_ prio(struct task struct * p, unsigned long long now) 
A¥ Caller must always ensure now > = p->timestamp */ 
unsigned long sleep _ time = now - p-> timestamp; 
recalc _ task _ prio 图 数 有 两 个 输 人 参数 和 now。p 参数 指向 进程 描述 符 ,now 参数 用 来 
记载 当前 的 系统 时 间 .。recalc _ task _ prio 函数 的 返回 值 为 当前 进程 的 prio 参数 . 
recalc _ task _ prio 因数 首先 获得 进程 的 睡眠 时 间 sleep _ time,sleep _ time 为 当前 系统 的 时 
同 稚 now 和 进程 最 近 一 次 使 用 CPU 的 时 间 戳 , 即 进程 的 timestamp 参数 之 差 。Linux 系统 使 
用 这 种 方法 确定 一 个 进程 从 睡眠 到 重新 被 激活 之 间 的 时 间 , 即 进程 的 睡眠 时 间 sleep _ time 
在 调用 recalc _ task _ prio 函数 时 ,程序 员 需 要 保证 now 参数 大 于 p>timestamp 参数 
if (batch_ task(p)) 
sleep_ time = 0; 


当 一 个 进程 使 用 SCHED _ BATCH 调度 策略 时 ,将 sleep _ time 的 值 置 为 0, 即 认 为 该 进程 
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没有 进行 睡眠 。 此 时 recalc _ task _ prio 函数 将 不 会 调整 进程 的 sleep _avg 参数 ,因此 也 不 会 调 
整 进程 的 prio 参数 。 由 此 可 见 采 用 SCHED_ BATCH 调度 策略 的 进程 不 会 根据 sleep _ avg 参 
数 调 整 进程 的 优先 权 。 因 此 采用 这 种 调度 策略 的 进程 在 CPU 上 睡眠 得 再 久 , 也 不 会 提高 其 优 
先 权 ， 


i{f (lkely(sleep _ time > 0)) | 
unsigned long ceiling = INTERACTIVE _ SLEEP(p): 
当 进 程 不 使 用 SCHED_ BATCH 调度 策略 时 ,sleep _ time 的 值 一 定 大 于 0, 此 时 该 函数 将 
计算 休眠 羡 值 ceiling, 该 赋值 的 计算 公式 如 下 所 示 : 
DELTA (p) = SCALE (TASK _ NICE (p) + 20, 40, MAX_ BONUS) - 
20 # MAX BONUS/40 + INTERACTIVE DELTA 

= SCALE (PRIO_ TO_ NICE (p- >static_ prio) + 20. #0, 10)-5+2 
= SCALE (P->static _ prio - 120+20, 40, 10) -3 
= ((p->static_ prio - 100) * 10 /40) -3 
= p>static_ prio/4 -25 -3 = p>static_ prio/4 -28 


ceiling = INTERACTIVE _ SLEEP(p) 
= JIFFIES_ TO_ NS (MAX SLEEP AVG 
* (MAX BONUS /2 + DELTA(p) + 1) /MAX BONUS -1) 
= JIFFIES_ TO_ NS (HZ *#* (10/2 + DELTA(p) +1) 10 -1) 
= JIFFIES_TO_ NS(HZ * (6+ P>static prio/4 -28)/10) -1) 
= JIFFIES_ TO_ NS (HZ # (p>static prio/4 -22)710)] -1) 


通过 以 上 会 式 ,可 以 发 现 休 眼 阔 值 ceiling 与 进程 的 static _prio 参数 有 关 。 一 个 进程 static 
_ prio 参数 的 值 越 小 ,其 对 应 的 休眠 国 值 ceiling 越 小 。 当 进程 的 static _ prio 参数 为 139 时 , 休 
虐 国 值 为 1199ms; 当 进 程 的 static _ prio 为 120 时 ,休眠 阅 值 为 799ms; 当 static _prio 为 100 
时 ,休眠 阅 值 为 299。 因 此 static _ prio 的 值 越 小 ,sleep _time 越 容 易 大 于 相应 的 休眠 阔 值 


celling。 


i{ (p->mm 区 区 sleep time > ceiling @&& p>sleep avg < ceiling) | 
p->sleep_ avg = ceiling; 
PpP>sleep_ type = SLEEP NONINTERACTIVE; 

这 段 程 序 对 p->>mmo,sleep _ time > ceiling 和 PpP->sleep _ avg < ceiling 三 个 条 件 进行 判 
断 。 如 果 这 三 个 条 件 同 时 成 立 , 则 sleep _ avg 参数 被 调整 为 休眠 阔 值 ceiling, 并 将 进程 的 交互 
式 级 别 sleep _type 置 为 SLEEP_ NONINTERACTIVE。 这 三 个 条 件 的 含义 如 下 所 示 : 

(1) 进程 描述 符 的 mm 是 否 为 空 , 当 mm 为 空 时 ,表示 当前 进程 是 核心 进程 ， 

(2) 进程 的 睡 虐 时 间 sleep _ time 大 于 休眠 浆 值 ceiling。 

(3) 进程 摘 述 符 的 平均 睡眠 时 间 sleep _ avg 是 否 小 于 休眠 阐 值 ceiling。 

当 三 个 条 件 同时 成 立时 表示 当前 进程 是 用 户 进程 ,其 sleep _ avg 参数 小 于 休眠 阔 值 ceil- 
ing, 且 该 进程 在 CPU 中 的 睡眠 时 间 sleep _ time 大 于 休眠 阅 值 ceiling。 也 就 是 说 这 是 当前 用 
户 进程 的 sleep _ time 第 一 次 超过 休眠 阅 值 ceiling, 

此 时 Linux 系统 不 会 将 当前 进程 设置 为 交互 式 进程 ,而 是 将 进程 描述 符 的 sleep _ avg 参 
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数 调整 为 休眠 阔 值 ceiling, 并 将 进程 的 交互 式 级 别 改 为 SLEEP_ NONINTERACTIVE。 


| else | 
i{ (p->sleep _ type 三 = SLEEP _ NONINTERACTIVE && p>mm) | 
if (p->sleep_ avg > = ceiling) 
sleep _ time = 0; 
else if (p->sleep_ avg + sleep time > = ceiling) | 
p->sleep _ avg = ceiling; 
sleep_ time = 0; 
| 
| 
p-~>sleep_avg + = sleep _ time; 
| 


当 上 文中 的 三 个 条 件 有 一 个 不 成 立时 ,将 执行 这 段 代 码 。 这 有 段 程序 将 首先 判断 进程 的 交 
互 式 级 别 sleep _ type 是 否 为 SLEEP _ NONINTERACTIVE 以 及 进程 是 否 为 用 户 进程 ,如 果 
条 件 成 立 , 则 调整 进程 的 sleep _ avg 参数 ,sleep _avg + = sleep _ time: 


if (p->sleep_avg > NS MAX SLEEP_AVG) 
p->sleep _ avg = NS MAX SLEEP _ AVG:; 
| 
return effective prio(p); 
这 段 程序 调整 p- >sleep _ avg 参数 ,保证 该 参数 的 取 值 范围 在 0 一 NS_MAX SLEEP _ 
AVG 之 间 。 然后 调用 effective _ prio 畏 数 调整 进程 的 normal _ prio 和 参数。 
effective _ prio 函数 的 返回 值 也 作为 recale __task _ prio 国 数 的 返回 值 。effective _ prio 图 
数 的 源 代码 详解 如 下 : 


static int effective_ prio(struct task struct * p) 
| 
p>normal_prio = normal _ prio(p); 
A/ 
#* [fwe are RT tasks or we were boosted to RT prionity, 
# keep the priority unchanged. Otherwise, update Priority 
* to the normal priority: 
A 
if (! rt_ prio(p->prio)) 
return p- >normal _ prio; 
Teturn p- > prio; 
| 
该 图 数 的 执行 如 下 : 
(1) effective _ prio 函数 调用 normal _prio 函数 计算 进程 的 normal _ prio 参数 ,如 果 当 前 进 
程 是 实时 进程 , 则 normal _prio = MAX RT _ PRIO-1 - p- 关 rt _ priority; 否则 使 用 _normal 
prio 函数 计算 进程 描述 符 的 normal _ prio 参数 ，normal _ prio 函数 的 详细 说 明 见 上 文 。 
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(2) 如 果 当 前 进程 是 实时 进程 ,effective _ prio 图 数 将 进程 描述 符 的 prio 参数 返回 , 即 不 改 
变 当前 进程 的 prio, 否 则 返回 已 经 根据 进程 的 bonus 参数 调整 过 的 normal _ prio 参数 。 

Linux 系统 使 用 进程 描述 符 的 sleep _ avg 和 sleep _ type 参数 动态 地 改变 进程 优先 权 ,这 使 
得 一 个 进程 睡眠 较 长 时 间 后 ,会 获得 比较 高 的 动态 优先 权 , 以 保证 Linux 系统 进程 调度 的 公平 
性 。Linux 系统 还 使 用 sleep _ avg 参数 判断 一 个 进程 是 否 为 交互 式 进程 。 在 Linux 系统 中 , 交 
互 式 进程 可 以 获得 更 高 的 响应 度 。 有 关 交 互 式 进程 的 内 容 将 在 5.4 节 中 详细 描述 。 

10. policy 参数 

policy 参数 存放 进程 的 调度 策略 。 在 Linux 系统 中 ,每 个 进程 可 以 单独 设置 自己 的 调度 策 
上 略 。Linux 系统 共 支 持 四 种 进程 调度 策略 ,分 别 为 SCHED _ NORMAL、 SCHED _ FIFO、 
SCHED_ BATCH 和 SCHED _ RR。 

(1) SCHED _ NORMAL 是 Linux 系统 最 常见 的 进程 调度 策略 ,Linux 的 普通 进程 都 使 用 
这 种 调度 策略 。 这 种 调度 策略 基于 进程 使 用 的 时 间 片 和 进程 的 优先 权 进 行 调度 。 这 种 调度 策 
略 可 以 保证 Linux 系统 中 的 每 个 进程 可 以 轮换 使 用 CPU 资源。 使 用 这 种 调度 策略 时 ,进程 的 
优先 权 和 进程 使 用 的 CPU 时 间 片 可 以 根据 进程 的 占用 CPU 的 时 间 而 动态 改变 。 

当 一 个 进程 长 期 使 用 CPU 资源 后 ,其 优先 权 将 会 降低 。 反 之 一 个 长 期 没有 得 到 CPU 资 
产 的 进程 ,其 优先 权 将 会 提高 。 从 而 Linux 系统 中 的 进程 都 有 机 会 获得 CPU 资源 运行 ,使 得 
Linux 进程 调度 达到 整体 最 优 的 效果 。 

一 般 来 说 ,对 于 一 个 非 实时 的 应 用 ,Linux 系统 的 所 有 进程 都 可 以 使 用 这 种 调度 策略 。 这 
样 Linux 系统 将 根据 各 个 进程 的 优先 权 来 合理 地 使 用 CPU 的 时 间 片 ,不 会 有 某 个 进程 因为 长 
时 间 没 有 得 到 CPU 资源 而 被 饿 死 的 现象 发 生 。 在 Linux 系统 中 ,普通 进程 只 能 使 用 SCHED 
NORMAL 或 者 SCHED : BATCH 策略 进行 进程 调度 。 

(2) SCHED _ BATCH 是 Linux 系统 处 理 批 处 理 进程 的 调度 策略 。 批 处 理 进程 不 需要 与 
用 户 交互 ,因此 ,它们 经 常 在 后 台 运 行 。 因 为 批 进程 不 需要 很 快 被 地 CPU 响应 ,在 Linux 系统 
中 ,这 类 进程 常 受到 调度 程序 的 慢 待 。 典 型 的 批 处 理 进程 是 程序 设计 语言 的 编译 程序 ,数据库 
搜索 引擎 及 科学 计算 程序 。 

(3) SCHED _ FIFO 和 SCHED _ RR 是 实时 进程 采用 的 进程 调度 策略 。Linux 系统 引入 
了 实时 进程 的 概念 ,允许 将 一 个 进程 定义 为 实时 进程 ,并 且 规 定 实时 进程 的 优先 权 一 定 大 于 普 
通 进程 。 

在 Linux 系统 中 ,实时 进程 可 以 采用 SCHED _ FIFO 或 者 SCHED _ RR 策略 进行 进程 调 
度 。 其 中 SCHED _ RR 策略 使 用 时 间 片 轮转 的 方法 调度 实时 进程 。 使 用 SCHED RR 调度 策 
略 的 进程 一 旦 用 完 进程 的 时 间 片 就 被 移动 到 优先 级 队列 的 队 尾 ,并 允许 同一 优先 级 的 其 他 进 
程 运行 。 如 果 在 当前 系统 中 没有 “同一 优先 级 ”的 其 他 进程 ,该 进程 将 继续 运行 。 

SCHED _ FIFO 策略 使 用 先 来 先 服务 的 方法 调度 实时 进程 。 使 用 SCHED _ FIFO 调度 策 
略 的 实时 进程 将 一 直 占 用 CPU 资源 运行 。 直 到 该 进程 被 阻塞 后 或 者 结束 后 ,其 他 进程 才能 获 
得 CPU 资源 运行 。 

系统 程序 员 在 设计 实时 进程 必须 要 注意 到 在 Linux 系统 中 实时 进程 的 优先 权 一 定 大 于 
普通 进程 的 优先 权 。 在 设计 中 ,系统 程序 员 需 要 统筹 考虑 Linux 系统 的 整体 效率 ,合理 设计 实 
时 进程 。 在 Linux 系统 中 , 如 果 一 个 实时 进程 长 时 间 占 用 CPU 资源 ,其 他 普通 进程 都 将 被 
饼 死 。 
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在 Linux 系统 中 ,普通 进程 或 者 交互 式 进程 可 以 使 用 SCHED_NORMAL 调度 策略 ;实时 
进程 可 以 使 用 SCHED _ FIFO 和 SCHED _ RR 调度 策略 ;而 批 处 理 进程 可 以 采用 SCHED _ 
BATCH 调度 策略 , 批 处 理 进 程 也 是 普通 进程 的 一 种 。 


5.1.3 进程 描述 符 的 其 他 属性 


在 Linux 中 ,除了 init _ task 进程 外 ,每 个 进程 都 有 自己 的 父 进程 ,有 的 进程 还 有 子 进程 和 
兄弟 进程 。 进 程 描述 符 使 用 real _ parent,children 和 sibling 数据 成 员 纪录 这 些 关 系 。Linux 所 
有 的 进程 组 成 了 一 个 基于 胖 树 的 网 状 结构 。 

进程 描述 符 还 记录 了 一 些 有 关系 统 安全 性 的 属性 。Linux 是 个 多 用 户 系统 ,这 些 不 同 用 
户 还 可 以 组 成 各 自 的 组 。task _ struct 使 用 uid, gid, euid, eguid, suid 等 其 他 数据 成 员 表示 这 些 
属性 。 

进程 描述 符 记 录 了 进程 使 用 的 与 文件 系统 ,文件 描述 符 , 内 存 系统 相关 的 各 种 信息 。 进 程 
描述 符 的 结构 较为 复杂 。 本 书 不 再 对 进程 描述 符 的 这 些 属性 一 一 介绍 。 

操作 系统 进程 调度 与 管理 模块 与 内 存 管理 和 中 断 系 统 紧 密 相连 。 要 求 读者 对 进程 调 
度 和 管理 .内 存 管理 .中 断 系统 、 信 号 机 制 其 至 Linux 系统 中 的 应 用 程序 都 要 有 和 较 深刻 的 
认识 。 

进程 描述 符 是 进程 调度 与 管理 的 核心 。 掌 握 了 进程 描述 符 的 细节 知识 也 就 掌握 了 进程 调 
度 的 核心 ,在 任何 一 个 操作 系统 中 ,进程 调度 和 切换 模块 需要 尽 可 能 地 缩短 自身 占用 CPU 的 
时 间 。 也 是 因为 这 个 原因 ,进程 调度 和 切换 所 使 用 的 算法 短小 精 悍 ,理解 这 些 算 法 的 难度 并 
不 大 。 


5.2 Linux 系统 中 的 核心 进程 与 普通 进程 


Linux 系统 有 许多 种 进程 ,如 核心 进程 (Kernel Thread) 用 户 进程 用户 线程 等 。 有 些 进 
程 在 Linux 内 核 中 创建 并 运行 ;有 些 在 用 户 空间 中 创建 ,但 是 可 以 在 Linux 内 核 和 应 用 空间 中 
运行 。 

这 些 不 同 种 类 的 进程 在 Linux 中 的 作用 不 同 。Linux 的 系统 用 户 与 一 般 用 户 可 以 根据 需 
要 创建 不 同 种 类 的 进程 。 

一 个 典型 的 进程 一 般 要 包含 以 下 几 个 部 分 。 

(1) 进程 描述 符 与 PID(Process ID)。 在 Linux 系统 中 使 用 task _ struct 结构 管理 进程 描 
述 符 。 一 个 进程 的 进程 描述 符 存 放 在 Linux 核心 内 存 中 ,用 户 进 程 不 能 操作 进程 描述 符 。 在 
Linux 系统 中 ,可 以 使 用 PID 号 表示 进程 。Linux 内 核 可 以 通过 进程 的 PID 号 查找 到 相应 的 
进程 描述 符 。 z 

(2) 进程 的 正文 段 。 用 户 进程 创建 时 ,进程 的 正文 段 将 被 调 人 到 用 户 空间 中 ; 而 核心 进程 
使 用 Linux 内 核 的 正文 段 。 一 个 进程 的 正文 段 可 以 被 其 他 进程 共享 。 子 进程 在 创建 时 可 以 共 
享 其 父 进程 的 正文 段 空间 ;也 可 以 在 子 进 程 创 建 完毕 后 使 用 系统 调用 execve 改变 进程 的 正 
文 段 。 

(3) 用 户 进程 的 数据 段 和 栈 段 。 用 户 进 程 的 数据 段 和 栈 段 在 进程 的 用 户 空间 中 。 

(4) 核心 堆栈 。 在 Linux 系统 中 ,每 一 个 进程 在 内 核 空间 都 有 一 个 独立 而 且 唯 一 的 核心 
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堆栈 。 这 个 堆栈 用 来 支持 进程 在 Linux 核心 中 运行 。 如 $.1.1 节 所 示 ,进程 的 核心 堆栈 与 进 
程 摘 述 符 的 thread _ info 参数 共享 一 个 8KB 大 小 的 空间 。 


5.2.1 核心 进程 


核心 进程 是 指 仅 在 Linux 核心 空间 中 运行 的 进程 。 核 心 进 程 具 有 进程 描述 符 .进程 的 正 
文 段 和 核心 堆栈 。 核 心 进程 的 正文 段 在 Linux 核心 空间 中 ,与 其 他 核心 进程 及 Linux 内 核 共 
全 相同 的 核心 正 交 段 , 核 心 进程 正 立 段 的 组 成 见 . /archypowerpecykernelyvmlinux.lds.S 文件 。 

核心 进程 的 堆栈 与 进程 描述 符 的 thread _ info 参数 共享 一 个 8 KB 大 小 的 空间 ,每 一 个 核 
心 进程 具有 独立 的 核心 堆栈 。 核 心 进程 不 在 用 户 空 间 含 有 数据 段 与 栈 段 。Linux 系统 中 , 核 
心 进 程 包括 使 用 kernel thread 函数 在 Linux 核心 中 创建 的 进程 和 init _ task 进程 。 在 Linux 
系统 中 ,核心 进程 可 以 调用 execve 函数 将 核心 进程 更 改 为 用 户 进 程 。 

1. Linux 系统 的 init _ task 进程 

init _ task 进程 是 Linux 内 核 中 的 第 一 个 进程 ,这 个 进程 贯穿 于 整个 Linux 系统 的 初始 化 ， 
init _task 进程 也 是 Linux 系统 中 唯一 没有 使 用 kernel _ thread 国 数 创 建 的 核心 进程 。 在 init _ 
task 进程 的 执行 后 期 使 用 kernel _ thread 函数 创建 第 一 个 核心 进程 ,并 完成 Linux 系统 初始 
化 - 在 init _ task 进程 完成 Linux 系统 的 初始 化 后 ,将 退化 为 idle 进程 , 当 Linux 系统 中 没有 
其 他 进程 使 用 CPU 资源 时 ,该 进程 将 被 执行 。 

Linux 系统 在 进行 初始 化 时 ,使 用 宏 INIT_TASK 初始 化 init _ task 进程 ,并 静态 地 为 init 
_ task 进程 建立 进程 描述 符 ,核心 栈 段 、init _ task 进程 与 Linux 内 核 共 至 正文 段 。Linux Pow- 
erPC 的 init _ task 进程 的 定义 在 .Warch/powerpc/kernel/init -task.c 文件 中 ,而 宏 INIT _ 
TASK 的 源 代 码 在 . /arch/powerpc/kernel/Ainit _ task.,bh 文件 中 ,其 代码 如 下 所 示 : 


struct task _ struct init _ task = INIT_ TASK(init _ task); 


# define INIT_ TASK(tsk) \ 

| 
-state = 0, \ 
,thread info = &init thread info， 
.flags = 0, \ 
.prio = MAX_ PRIO-20, \ 
.static_ prio = MAX _ PRIO-20, \ 
.normal _prio = MAX PRIO 20, \ 
.policy = SCHED_ NORMAL, \ 
-mm = NULL, 从 
.active mm = &init mm， \ 
time slice = HZ, AN 


.thread = INIT _ THREAD, 


i 


由 上 述 代 码 可 见 ,Linux 系统 将 init _task 进程 的 进程 描述 符 进 行 静 态 赋值 。 其 主要 参数 
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的 初始 值 如 下 所 示 : 
1) state 参数 为 0, 即 为 TASK _RUNNING 状态 ,表示 当前 进程 正在 运行 或 者 在 就 绪 队 列 
中 等 待 执行 。 
2) thread _ info 参数 为 init _ thread info,init thread info 的 定义 如 下 所 示 : 
# define init thread _ info{init _ thread union. thread _ info) 
union thread _ union | 
struct thread __ in{o thread _ info; 
unsigned long stack[ THREAD _ SIZE./sizeof( long) ); 
得 
init thread _union 是 一 个 thread ”union 类 型 的 联合 结构 ,在 该 结构 中 thread _ info 参数 
与 8 KB 大 小 的 stack 参数 共享 一 个 空间 。init _ task 进程 采用 这 种 方法 将 其 thread _ info 参数 
和 该 进程 所 再 要 的 核心 堆栈 进行 初始 化 . 
3) prio,static _ prio 和 normal _ prio 参数 为 120 ,policy 参数 为 SCHED_ NORMAL 。 
4) Linux 系统 的 核心 进程 没有 属于 自己 的 内 存 地 址 空间 mm, 所 有 的 核心 进程 的 mm 参 
数 都 为 NULL, 而 active _ mm 参数 借用 用 户 的 进程 地 址 空间 。 内 核 初始 化 进程 init _ task 在 
Linux 系统 进行 初始 化 时 的 active _mm 参数 为 init _mm,init _ mm 变量 使 用 宏 INIT _ MM 进 
行 初始 化 。 宏 INIT_MM 在 . /include/Ninux/init _ task.h 文件 中 定义 ,该 宏 将 内 存 描述 符 的 
pgd 参数 设置 为 全 局 变量 swapper pg _ dir,swapper _ pg _ dir 变量 是 Linux 内 核 初 始 化 时 使 
用 的 pgd 指针 。 有 关 pgd 指针 的 详细 说 明 见 本 书 的 第 7 章 。 
5) thread 参数 使 用 宏 INIT_THREAD 进行 初始 化 , 宏 INIT_THREAD 对 init _ task 进 
程 的 thread 参数 进行 设置 ,包括 init _ task 进程 使 用 的 堆栈 指针 ,pgd 和 其 他 参数 进行 设置 ,其 
定义 在 . /include/asm-powerpc/processor.h 文件 中 ,如 下 所 示 : 


#define INIT THREAD | \ 


,ksp = INIT_ SP, \ 
.regs = (struct pt_regs *)INIT SP-1, \ 
.fs = KERNEL DS, \ 
.fpr = 10}, \ 
pecr = | .val = 0, | 
.fpexc _ mode = 0， AN 


| 
上 define INIT_SP (sizeof(init _stack) + (unsigned long) &init_ stack) 
#define init stack (init thread union.stack) 

从 以 上 源 代 码 中 ,可 以 发 现 init _ task 进程 使 用 宏 INIT _ SP 设置 核心 堆栈 的 栈 顶 指针 。 
该 值 为 init thread union.stack + 8KB, 也 等 于 init _ thread union.thread info+8KB, 因 为 
init ”thread union 的 stack 和 thread info 参数 共享 同一 段 物理 地 址 连 绥 的 空间 . 

在 Linux 系统 的 初始 化 阶段 ,init _ task 进程 即 被 建立 ,这 个 进程 将 对 Linux 系统 的 进程 调 
度 子 系统 ,内 存 管理 子 系统 ,文件 管理 子 系统 ,信号 机 制 等 其 他 所 有 的 Linux 子 系统 进行 初始 
化 ,然后 使 用 kernel _ thread 函数 创建 init 进程 ,最 后 执行 cpu _ idle 函数 使 处 理 盘 人 处 于 空 闪 状 

127 


仿 。 在 Linux 系统 中 ,如 果 没 有 其 他 活动 进程 ,Linux 系统 将 使 用 init _ task 进程 作为 缺 省 进程 
运行 

在 标准 的 Linux 系统 中 ,核心 进程 init 是 由 init _ task 进程 创建 的 唯一 进程 ,将 完成 init _ 
task 进程 未 完成 的 其 他 Linux 系统 的 初始 化 工作 ,包括 work — YUEtUE ,驱动 程序 的 初始 化 ,释放 
Boot Memory 空间 等 。 在 核心 进程 init 的 最 后 ,将 执行 execve 系统 调用 将 init 进程 从 核心 进 
程 转 换 为 用 户 进程 ,进一步 对 Linux 系统 的 用 户 进程 进行 初始 化 ，Linux 的 用 户 进程 都 是 由 
核心 进程 init 创建 或 者 派生 出 来 的 ， 

2, 其 他 核心 进程 

与 Linux PowerPC 中 的 普通 进程 相 比 ,核心 进程 与 Linux 核心 共享 虚 地 址 空间 ,因此 在 核心 
进程 中 地 址 的 虚实 地 址 转换 效率 较 高 (PowerPC 处 理 器 使 用 TLB1 映射 Linux 核心 的 虚拟 地 址 空 
间 )。 与 普通 进程 相 比 ,核心 进程 访问 存储 器 的 效率 要 高 一 些 。 同 时 在 Linux 2.6 内 核 中 ,如 果 核 
心 进 程 与 普通 进程 的 static _ prio 参数 相等 时 ,核心 进程 将 有 机 会 获得 更 多 的 CPU 资源- 

基于 以 上 原因 ,有 许多 用 户 使 用 Linux 系统 的 核心 进程 实现 自己 的 应 用 。 但 是 用 户 在 书 
与 核心 进程 程序 时 ,必须 注意 ,核心 进程 属于 Linux 内 核 程 序 的 一 部 分 ,是 Linux 系统 信任 的 
模块 ,核心 进程 的 Bug 可 能 引起 整个 Linux 系统 的 前 溃 。 

Linux 系统 中 除 init _ task 进程 外 ,其 他 进程 都 要 使 用 kernerl thread 函数 创建 。 下 文 将 
以 核心 进程 init 为 例 说 明 如 何 创 建 核心 进程 。 核 心 进程 init 的 源 代码 存放 在 . /init/main.c 
文件 中 ,如 下 所 示 : 
static int init(void # unused) 
| 

lock_ kemnel( ); 

set cpus_ allowed(current, CPU MASK ALL): 


6 


[i 


| 
在 rest _ init 图 数 中 ,Linux 系统 使 用 kernel thread 函数 生成 init 进程 。rest init 函数 在 
Linux 系统 初始 化 时 调用 ,其 源 代码 在 . /init/main.c 文件 中 。 

static void noinline rest _ init( void) 
_Teleases( kernel _ lock) 

| 
kernel _ thread(init. NULL, CLONE FS | CLONE SIGHAND); 
numa _ default _ policy( ); 


cpu _ idle( ); 
| 

在 rest _ init 铺 数 的 开始 将 调用 kernel _ thread 函数 创建 init 进程 。kernel thread 函数 共 
有 三 个 输 人 参数 fn, arg 和 flags, 该 函数 的 源 代 码 在 . /arch/powerpc/kernel/misc ”32.S 文件 
中 ,在 kernel _ thread 函数 中 将 使 用 系统 调用 svs _clone 来 创建 核心 进程 。kernel _ thread 函数 
的 源 代码 实现 较为 简单 ,请 读者 自行 阅读 以 了 解 其 实现 的 细节 ，Linux 系统 中 还 有 许多 核心 
进程 如 keventd,kapmd,kswapd,pdflush 等 ,有 些 驱 动 程序 也 会 根据 需要 创建 核心 进程 
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5.2.2 普通 进程 


Linux 系统 中 存在 两 类 用 户 进程 ,用 户 进程 与 用 户 线程 .严格 意义 上 说 ,只 有 拥有 了 进程 
描述 符 .PID .进程 的 正文 段 ,用户 进程 的 数据 段 和 栈 段 ,核心 栈 段 的 进程 才 被 称 为 用 户 进 程 ， 
而 没有 独立 的 数据 段 和 栈 段 的 进程 被 称 为 线程 。 

在 Linux 系统 中 ,许多 进程 与 其 父 进 程 共享 同一 段 存储 空间 .这 些 进程 挛 格 说 来 还 是 线 
程 ;但 是 这 些 子 进程 可 以 通过 execve 系统 调用 创建 其 自己 的 进程 空间 ,并 与 父 进程 分 离 .成 为 
真正 意义 上 的 进程 。 

在 Linux 系统 的 早期 版 本 中 ,使 用 系统 调用 fork 创建 子 进 程 。 此 时 于 进程 对 父 进 程 的 数 
据 段 与 栈 段 直接 进行 复制 ,这 样 做 虽然 保证 了 子 进程 的 独立 性 ,但 是 使 用 这 种 方法 创建 进程 的 
开销 过 大 .因此 在 Linux 的 后 续 版 本 中 引入 了 线程 的 概念 。 此 时 ,线程 将 与 父 进 程 共 至 数据 
段 与 栈 段 , 从 而 极 大 地 提高 了 操作 系统 创建 进程 的 效率 - 在 Linux 系统 中 ,进程 和 线程 履 有 目 
己 的 进程 描述 符 与 核心 栈 段 。 其 中 ,核心 栈 段 用 来 支持 用 户 进 程 或 线程 在 Linux 核心 中 执行 

Linux 系统 使 用 fork,clone 和 vfork 三 个 系统 调用 创建 所 有 用 户 进 程 

系统 调用 fork 用 来 创建 传统 的 用 户 进程 ,系统 调用 clone 用 来 创建 用 户 线程 。 系 统 幸 用 
vfork 与 fork 系统 调用 功能 类 似 。 只 是 系统 调用 vfork 将 阻塞 父 进程 的 运行 下 到 子 进程 执行 
完毕 ,或 者 执行 execve 系统 调用 替换 从 父 进程 继承 的 数据 段 与 栈 段 。 如 果 用 户 使 用 fork 系统 
调用 之 后 立即 使 用 execve 系统 调用 ,可 以 使 用 系统 调用 vfork 以 提高 效率 . 

在 Linux 系统 中 , 系统 调用 fork, clone 和 vfork 将 分 别 调用 sys _ fork,svs_ viork. svs 
clone 函数 这些 函数 的 源 代码 在 . /arch/powerpc/kernel/process.c 文件 中 : 


int sys _ clone( unsigned long clone flags, unsigned long usp, int _ user * parent _ tidp, 
void user *child_ threadptr，int _ user * child tidp. int p6, struct pt_ regs * regs) 
| 
i{ (usp = = 0) usp = regs- >gprll); /* stack Pointer for child */ 
return do_ fork(clone_ flags, usp, regs, 0, parent _ tidp, child _ tidp): 
| 


int sys _ fork{ unsigned long pl, unsigned long p2, tnsigned long Pp3, unsigned long p4, 
unsigned long p5, unsigned long p6, struct pt _ regs * regs) 
| 
retumn do_ {fork(SIGCHLD, regs- > gpr[1|, regs, 0, NULL, NULL):; 
| 


int sys _ v{ork( unsigned long pl ，unsigned long p2, unsigned long p3, unsigned long p4. 


unsigned long p5, unsigned long p6, struct pt _ regs * regs) 
| 


retum do_fork(CLONE _ VFORK | CLONE _ VM | SIGCHLD, regs- >gpr[ 1 ] ， 
regs. 0. NULL,. NULL):; 


以 上 三 个 函数 最 终 都 将 调用 do _ fork 函数 进行 进程 创建 - 在 Linux 系统 中 , 绝 大 多 数 进 
程 都 属于 用 户 进 程 ,如 用 户 使 用 Shell 界面 执行 的 进程 都 是 用 户 进 程 ,所 有 的 Daemon 进程 也 
都 是 用 户 进 程 . 
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5.3 Linux 系统 中 进程 的 状态 转换 


Linux 系统 中 ,进程 在 执行 过 程 中 ,可 能 会 进行 一 系列 的 状态 转换 。 这 些 状态 包括 TASK 
_ RUNNING, TASK _ INTERRUPTIBLE, TASK _ UNINTERRUPTIBLE, EXIT DEAD 和 
EXIT_ ZOMBIE 等 ,进程 的 状态 转换 如 图 5-6 所 示 。 






进程 创建 








使 用 schedule 函 数 进程 调度 


TASK_RUNNING 
(Ready). 


使 用 schedule 函 数 进程 调度 


TASK INTERRUPTIBLE 
TASK_UNINTERRUPTIBLE 


图 5-6 ”Linux 系统 进程 状态 转换 


Linux 系统 的 每 个 进程 都 有 一 个 生命 周期 。 都 要 经 历 创建 .运行 .结束 等 许多 状态 后 结束 
运行 。 每 个 进程 又 可 以 创建 子 进程 ,这 些 子 进程 仍然 要 经 历 各 自 的 生命 周期 。 在 Linux 系统 
中 ,进程 处 于 就 绪 态 或 者 处 于 运行 态 时 ,其 状态 都 为 TASK _ RUNNING。 

Linux 系统 中 的 进程 被 创建 后 ,将 进入 就 绪 态 (Ready) 等 待 执行 ,之 后 该 进程 等 待 合适 的 
时 机 获得 CPU 资源 ， 进入 运行 态 (Running ) 。 

进程 在 CPU 中 运行 时 ,可 能 会 由 于 等 待 某 些 信和 号 或 者 中 断 事件 而 放弃 在 CPU 中 的 运行 ， 
进入 到 TASK _ INTERRUPTIBLE 和 TASK _UNINTERRUPTIBLE ,也 可 能 被 其 他 优先 权 
较 高 的 进程 抢占 或 者 使 用 当前 进程 的 时 间 片 而 被 调度 程序 切换 到 就 绪 态 。 

当 进 程 执行 完毕 后 ,将 放弃 对 CPU 的 使 用 ,进入 到 结束 态 。Linux 系统 中 ,一 个 进程 在 结 
束 时 ,首先 要 进入 EXIT_ ZOMBIE 状态 , 当 父 进程 对 此 进程 进行 回收 时 ,该 进程 将 进入 EXIT 
_ DEAD 状态 ,最 后 结束 整个 进程 的 运行 。 

一 个 进程 在 执行 过 程 中 ,有 可 能 会 经 历 多 次 从 运行 到 就 绪 , 从 就 绪 到 运行 ,以 及 从 运行 到 
等 待 ,从 等 待 到 就 绪 的 状态 转换 。 


“5.3.1 进程 的 创建 


在 Linux 系统 中 ,程序 员 可 以 使 用 kernel thread ,sys _ fork,sys _ clone 以 及 sys _ vfork 函 
数 创建 子 进程 。 由 5.2.2 节 所 示 , 这 些 函 数 都 将 调用 do _ fork 函数 完成 进程 的 创建 ,do fork 
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进程 结束 
TASK RUNNING 
(Running) 


某 些 资源 





进程 获得 
所 需 的 资源 





函数 的 定义 在 . /kernelvfork.ec 文件 中 。 

do ”fork 函数 一 共有 6 个 参数 ,如 下 所 示 : 

(1) clone flags。clone flags 参数 是 do _ fork 函数 的 重要 参数 ,该 参数 由 32 位 组 成 ,每 
一 位 表示 不 同 的 含义 ,这 些 位 的 定义 在 , /include/linux/sched.h 文件 中 ,clone _ flags 的 主要 生 
数 如 表 5-1 所 示 。 


表 5-1 clone _flags 的 主要 参数 












名 称 什 | 描 述 
CLONE _VM 0x00000100 ”| 子 进程 与 父 进程 共 享 存储 空间 | 加 
CLONE _FS ”0x00000200 于 进程 与 父 进 程 共享 使 用 的 文件 系统 
CLONE_ FILES ”0x00000400 | 子 进程 与 父 进程 共享 打开 的 文件 局 本 
CLONE_ SIGHAND 0x00000800 子 进程 与 父 进 程 共享 信和 号 量 
CLONE PTRACE | 0x00002000 = 进程 可 以 被 ptrace 跟踪 
CLONE _ VEORK | | 0x00004000 让 使 用 viork 创建 : 下 进程 时 ,此 位 置 
































CLONE _ PARENT 0x00008000 | 子 进程 的 父 进程 为 创建 进程 的 父 进程 
CLONE _ THREAD ] 0x00010000 于 于 进程 与 父 进程 的 线 程 组 相同 四 
CLONE_ NEWNS 0x00020000 | 于 进程 与 父 进程 不 共享 使 用 的 文件 系统 
CLONE _ SYSVSEM 0x00040000 子 进 程 共 享 父 进程 的 SEM _ UNDO 信和 号 量 





CLONE UNTRACED | 
CLONE_ STOPPED 


0x00 800000 
0x02000000 


禁止 对 子 进程 的 跟踪 
强制 子 进程 进入 TASK _ STOP 状态 
















(2) stack start。 该 参数 描述 子 进 程 的 用 户 态 堆栈 指针 。 父 进程 将 会 为 子 进程 创建 新 的 
用 户 堆 栈 . 

(3) regs。 该 参数 用 来 记录 PowerPC 处 理 器 通用 寄存 器 的 但 。 

(4) stack _ size。 该 参数 没有 被 do _ fork 函数 使 用 . 恒 为 伶 

(5) parent _tidptr 和 child__tidprr-。 这 两 个 参数 分 别 用 来 确定 父 进 程 与 子 进程 的 PID。 

sys_ fork .sys_ vfork\sys_ clone 和 kernel _ thread 调用 do -fork 函数 时 使 用 的 参数 不 同 。 
do ”fork 函数 将 根据 这 些 不 同 的 参数 确定 是 创建 核心 进程 ,用 户 进程 还 是 用 户 线程 。 

do ”fork 函数 的 源 代码 在 . /kermnel/fork.c 文件 中 。do _ferk 函数 共 由 三 部 分 组 成 : 

(1) 使 用 alloc _pid 函数 创建 进程 的 pid 结构 。 

(2) 使 用 copy _process 创建 进程 描述 符 , 如 果 创 建 进程 成 功 , 则 对 子 进程 的 状态 进行 检查 。 

(3) 调用 wake_ up _ new _ task 函数 将 子 进程 加 和 人 到 Linux 系统 的 进程 运行 队列 中 ,从 而 
激活 子 进 程 。 

1. 建立 进程 的 pid 结构 

do _fork 函数 使 用 alloc _ pid 函数 创建 进程 的 pid 结构 ,其 源 代码 如 下 所 示 : 


/¥# do_ fork 函数 源 代码 片段 1 * / 

long do _ fork( unsigned long clone_ flags, unsigned long stack _ start, 
struct pt_ regs * regs, unsigned long stack _ size, 
int _ user * parent _ tidptr, int _ user * child tidptr) 
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struct task struct *p; 
int trace = 0; 
struct pid # pid = alloe pid(): 
long nr:; 
if (1 pid) 
retum -EAGAIN; 
nr = pid->nr; 
在 这 段 程 序 中 ,do _ fork 函数 首先 调用 alloc pid 图 数 获得 进程 的 PID 号 。alloc _ pid 函 
效 的 源 代码 在 . /kernel/pid.c 文件 中 ,该 函数 的 源 代码 如 下 ， 
struct pid #alioc _ pid(void) 
| 
struct pid * pid; 
enum pid _ type type; 
int nr = -1; 
pid = kmem _ cache _ alloc(pid _cachep, GFP KERNEL); 
if (1 pid) 
EDtO Out; 
nr = aloc_ pidmap(current- > nsproxy- >pid ns); 
if (nr < 0) 
goto out _ free; 
atomic _ set( 改 pid- >coun!l, 1):; 
pid- >nr = nr; 
[or (type = 0; type < PIDTYPE MAX; ++ type) 
INIT_ HLIST _ HEAD( &pid. > tasks| type | ): 


return pid; 


以 上 代码 由 以 下 几 个 步骤 组 成 : 

1 ) 首先 使 用 kmem cache alloe 函数 从 Slab 分 配器 中 获得 子 进 程 的 pid 结构 使 用 的 物理 
内 存 ,Slab 分 配器 将 在 下 文中 详细 讨论 ， 

2) 再 用 alloc _ pidmap 函数 分 配 进 程 的 ID 号。 

3) 随后 将 子 进程 的 pid 结构 的 count,nr 和 tasks 参数 进行 初始 化 

alloc _pid 图 数 使 用 FFB(Find First Bit) 算 法 在 全 局 变量 init _ pspace 中 查找 未 被 使 用 的 
进程 ID 号 。 全 局 变量 init ”pspace 的 定义 在 . /ernel/pid.c 文件 中 ,该 变量 是 一 个 pspace 数 
据 类 型 。 数 据 结 爸 pspace 在 . /include/inux 目录 的 pspace.h 文件 中 ,其 定义 如 下 所 示 . 
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struct pspace | 
struct pidmap pidmapL PIDMAP ENTRIES]; 
int last _ pid; 


| 
全 重 


struct pidmap | 
atomic_ t nr_ free; 
void * page; 

| 

pspace 结构 定义 了 pidmap 参数 和 last _ pid 变量 。 其 中 ,pidmap 变量 用 来 存放 进程 ID 号 
的 位 图 信息 ,而 last _ pid 变量 用 来 存放 在 该 位 图 中 最 后 使 用 的 pid 号 。 

在 Linux 初始 化 时 ,init _space,pid_mapl0 .. PIDMAP ENTRIES = | BITS_ PER 
PAGE, NULL | , 即 所 有 pidmap 中 的 nr _ free 参数 为 BITS _PER _ PAGE, 而 page 为 空 ,表示 
在 init _ pspace 变量 中 所 有 存放 进程 ID 的 位 图 都 为 空 

在 Linux 系统 中 ,使 用 alloc _ pidmap 函数 分 配 进程 ID 号 ,此 函数 的 源 代码 在 . /kernel/ 
pid.c 文件 中 。 该 函数 将 根据 FFB 算法 遍历 &init pspace—* pidmap 中 的 空闲 进程 ID 号 ,在 遍 
历 查 找 的 过 程 中 ,分配 pidmap 一 page 所 需 的 空间 . 

alloc _ pidmap 录 数 的 实现 比较 精巧 ,希望 读者 一 定 要 真正 理解 这 个 函数 的 实现 。 本 书 不 
再 拘泥 于 alloc _ pidmap 函数 的 实现 细节 。 

2. 初始 化 子 进程 的 进程 描述 符 

A¥# do _ fork 函数 源 代码 片段 2 */ 
p= copy process(clone flags, stack start, regs, stack size, parent _ tidptr, child _ tidptr, 
nr); 

Linux 系统 使 用 copy process 函数 函数 建立 各 类 进程 ,该 函数 的 源 代码 在 . /kernel/ 
fork.c 文件 中 ,下 文 将 详细 分 析 copy _ process 图 数 的 主要 源 代码 。 


/A# copy _ process 图 数 源 代码 片段 1 */ 
static struct task _ struct * copy _ process(unsigned long clone _ flags, 
unsigned long stack start, 
struct pt _ regs * regs, 
int _ user # parent _ tidptr, 
int _ user * child _ tidptr, 
int pid) 
copy _ process 函数 中 除了 pid 参数 外 ,其 他 参数 与 do _ fork 图 数 的 参数 相同 从 上 文中 
的 源 代码 中 ,可 以 发 现 nr 变量 由 alloc _ pidmap 函数 创建 , 即 子 进程 的 ID 号 、copy _process 函 


/A¥ copy _ process 图 数 源 代码 片段 2 */ 
| 


int retval; 
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struct task _ struct *p = NULL; 


if ((clone_ flags & (CLONE _ NEWNSICLONE_FS)) == (CLONE NEWNS|ICLONE FS)) 
returm ERR_ PTR(-EINVAL); 


if ((clone_ flags &@ CLONE THREAD) && | (clone flags 和 CLONE SIGHAND)) 
retum ERR PTR(-EINVAL): 


i 计 ((clone_ flags & CLONE SIGHAND) && ! (done_ flags & CLONE VM)) 
retum ERR PTR(-EINVAL); 
copy _ process 图 数 自 先 将 对 函数 的 人 口 参 数 进行 检查 ,clone _ flags 参数 中 的 有 些 位 具有 
相关 性 , 有些 位 具有 互 太 性 ,如 CLONE _NEWNS 标志 位 和 CLONE _FS 不 能 同时 为 1， 
CLONE_ THREAD 标志 位 和 CLONE _ SIGHAND 标志 位 必须 同时 为 1,CLONE _SIGHAND 
标志 位 和 CLONE _ VM 必须 同时 为 1 


/# copy _ process 消 数 源 代码 片段 3 * / 


p = dup_ task _ struct(current); 
i{ (1 p) 
goto fork _ out; 


rt_ mutex init_ task(p); 


INIT _ LIST HEAD(&p->children); 
INIT _ LIST _ HEAD( &p- > sibling); 
p->viork _ done = NULL:; 

spin_ lock_ init(&p->alloc _ lock); 


clear tsk _ thread _flag(p, TIF_ SIGPENDING):; 
init _ sigpending( &p- > pending) ; 
pP- >utime = cputime _ zero; 
Pp->stime = cputime _ zero; 
Pp->sched _ time = 0; 
p>rchar = 0; A¥ LO counter: bytes read * / 
p>wchar = 0; /A/# 1/O counter: bytes written * / 
p- >syscr = 0; A¥ LO counter: read syscalls * / 
p>syscw = 0; /A* LO counter: write syscalls * / 
随后 ,copy _ process 函数 调用 dup _task _ struct 函数 复制 子 进程 的 进程 描述 符 。 该 函数 
的 输入 参数 是 current, 即 当前 运行 进程 的 进程 描述 符 。dup _ task _ struct 函数 在 . /kernel/ 
fork.c 文件 中 ,其 执行 流程 如 下 : 
1) 首先 调用 prepare _ to _ copy 函数 为 复制 子 进程 描述 符 作 准备 ,该 函数 将 对 PowerPC 处 
理 郁 中 的 浮 点 .Altivec 和 SPE 寄存 器 与 current 描述 符 中 的 thread 参数 进行 同步 . 
2) 调用 alloc _ task _ struct 函数 从 Slab 分 配器 中 申请 子 进程 描述 符 使 用 的 物理 内 存 。 
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3) 调用 alloc _ thread _ info 函数 从 Buddy System 中 申请 子 进 程 描述 符 的 thread _ info 参 
数 所 使 用 的 空间 ,该 参数 一 共 占 用 8KB 空间 。 下 文 将 详细 介绍 Buddy System. 

4) dup _ task 函数 中 使 用 Gece 提供 的 结构 拷贝 功能 (struct copy) 将 父 进程 的 进程 描述 符 
复制 到 子 进 程 中 , x tsk = x orig， 

5) 初始 化 子 进程 描述 符 的 state 和 thread _ info 参数 ， 

6) 调用 setup _ thread _ stack 图 数 将 父 进 程 描述 符 thread _ info 参数 中 的 内 容 复 制 到 子 进 
程 描述 符 的 thread _ info 中 。 

7) 初始 化 子 进程 描述 符 的 其 他 参数 . 

dup _ task 图 数 执行 完毕 后 ,copy _ process 函数 将 对 其 返回 状态 进行 判断 。 如 果 该 函数 成 
功 返 回 ,copy _ process 图 数 将 对 子 进程 描述 符 的 其 他 属性 进行 初始 化 ,如 对 user、utime,io _ 
context vtgid 等 一 系列 参数 进行 初始 化 ,并 将 子 进 程 与 其 他 进程 确立 血缘 关系 。 


Z# copy _ process 函数 源 代 码 片 段 4 */ 


if ((retval = copy _ semundo(clone _ flags，p))) 
goto bad fork cleanup _ audit; 
if{ ((retval = copy _ files(clone_ flags, p))) 
goto bad _ fork _ cleanup _ semundo; 
if ((retval = copy_ fs(clone_ flags, p))) 
goto had _ fork_ cleanup _ files: 
if ({retval = copy _ sighand(clone_ flags, p))) 
goto bad _ fork _ cleanup _ fs; 
if ((retval = copy _ signal(clone_ flags, p))) 
goto bad _ fork_ cleanup _ sighand; 
if ((retval = copy_ mm(clone _ flags, p))) 
goto bad [ork cleanup _ signal; 
i{ ((retval = copy keys(clone flags, p))) 
goto bad _ fork _ cleanup _ mm: 
if ((retval = copy namespaces(clone_ flags, p))) 
goto bad fork cleanup_ keys; 
retval = copy _ thread(0, clone_ flags, stack start, stack size, p, regs); 
if (retval) 
goto bad fork _ cleanup _ namespaces; 
p->set_child_tid = (clone_ flags &@ CLONE CHILD_ SETTID)? child_ tidptr : NULL; 
A 
# Clear TID on mm _ release( )? 
其 7 
p>dear_ child_tid = (done_ flags & CLONE CHID_ CLEARTID) ? child_ tidptr: NULL; 
p->robust_ list = NULL; 


随后 copy _ process 函数 调用 copy _ semundo,copy _ files,copy _ fs,copy _ sighand, copy _ 
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signal ,copy _ mm,copy keys,copy _ namespace 和 copy _ thread 国 数 对 子 进程 描述 符 的 其 他 属 
性 进行 赋值 ,在 对 这 些 属性 进行 赋值 时 将 对 clone ”flags 参数 进行 检查 以 决定 是 否 继 承 父 进程 

在 以 上 程序 中 ,copy _mm 图 数 是 一 个 非常 重要 的 图 数 ,该 国 数 将 创建 子 进 程 的 进程 地 址 
空间 ,读者 只 有 了 解 Linux 系统 内 存 管理 的 细节 之 后 , 才 可 能 理解 此 函数 。 读 者 可 以 暂时 这 样 
理解 copy _ mm 图 数 的 执行 结果 - 当 clone _flags 的 CLONE _ VM 位 没有 使 能 旦 父 进程 不 是 
核心 进程 时 ,该 隶 数 将 复制 父 进 程 内 存 地 址 空间 ,此 时 子 进程 与 父 进 程 的 地 址 空间 独立 ;如 来 
父 进 程 是 核心 进程 时 , 子 进程 将 使 用 Linux 内 核 的 地 址 空间 ;而 当 clone _ flags 的 CLONE _ 
VM 位 使 能 时 , 子 进程 将 共享 父 进 程 的 地 址 空间 . 

在 以 上 程序 中 ,copy _ thread 图 数 是 另 一 个 比较 重要 的 图 数 。copy _ thread 图 数 初 始 化 进 
程 摘 述 符 的 thread 结构 ,包括 进程 的 核心 堆栈 和 寄存 器 信息 ,copy _ thread 函数 的 源 代码 在 ./ 
arch/powerpc/kernel/process.c 文件 中 

copy _ process 图 数 完 成 进程 的 复制 工作 后 ,将 调用 sched _ fork 图 数 。 


/A copy _ process 范 数 源 代码 片段 5S * / 
/# Perform scheduler related setup. Assign this task toa CPU, */ 
sched _ fork(p, clone_ flags); 


/¥ Need tasklist lock for parent etc handling! */ 
write_ lock _ irgq( &tasklist _ lock); 

/x forsys_ioprio_ set(IOPRIO_ WHO_ PGRP) */ 
上 之 Iopnio 三 current- > iopnio; 


W 苇 


上 


The task hasn 1 been attached yet, so its cpus _ allowed mask will 
not be changed, nor will its assigned CPU. 


站 


* The cpus_ allowed mask of the parent may have changed after it was 
copied first time - so re-copy it here, then check the child s CPU 

# to ensure it is on a valid CPU (and if not, just force it back to 
parent s CPU). This avoids alot of nasty races. 

/A 


于 


站 


p->>cpus_ allowed = current-> cpus _ allowed:; 
if (unlikely(! cpu isset(task cpu(p), p>cpus_ allowed) || 
! cpu_ online(task _ cpu(p)))) 
set task cpu(p, smp _ processor _ id()):; 


| /x End copy process */ 
sched _ fork 上 蚊 效 设置 进程 描述 符 与 有 调度 有 关 的 参数 ,该 图 数 是 copy _ process 国 数 中 调 
用 的 关键 图 数 , 其 源 代码 在 . kernelysched.c 文件 中 ,其 主要 源 代码 如 下 : 
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void fastcall sched _ fork{(struct task _ struct * p, int clone flags) 
| 

int cpu = get _ cpul(); 
#ifdef CONFIG_ SMP 

cpu = sched _ balance_ self(cpu, SD_ BALANCE _ FORK):; 
# endif 

set_ task _ cpu(p, cpu); 

p->state = TASK _ RUNNING; 

p>prio = current-> nonmal _ prio; 

INIT _ LIST _ HEAD( &p- >run _ list); 

Pp->array = NULL; 
#ifdef OONFIG _ PREEMPT 

/# Want to start with kernel preemption disabled. */ 

task _ thread _ info(p)- 之 preempt _ count = 1; 
# endif 


local_irg_ disable( ); 

p>time_ slice = (current->time_ slice + 1) >> 1; 
p->first_ time_ slice = 1; 

current->time slice 之 盖 三 1 

p->timestamp = sched _ clock():; 


if (unlikely(! current->time slice)) | 
current- >time_ slice = |; 
task running _ tick(cpu _ rq(cpyu), current); 
| 
local _ irg _ enable( ); 
put _ cpu( ) ; 
| 
sched _ fork 范 数 的 执行 流程 如 下 : 
1) sched _ fork 水 数 首先 使 用 get _cpu 函数 获得 当前 进程 使 用 的 CPU。get _ cpu 函数 调 
用 preempt _ disable 函数 ,禁止 对 此 cpu 上 的 进程 进行 抢占 ,然后 再 调用 smp _ processor _id 力 
数 获得 当前 进程 使 用 的 CPU。get _ put 函数 与 put _ cpu 图 数 成 对 出 现 。 
2) Linux SMP 将 调用 sched ”balance self 函数 ,该 函数 的 主要 作用 是 根据 SMP 处理 冀 
中 各 个 CPU 的 负载 ,选择 目前 相对 最 空闲 的 CPU 运行 子 进 程 。Linux SMP 是 一 个 相对 复杂 
的 系统 ,本 书 不 对 Linux SMP 进行 详细 描述 ,在 不 远 的 将 来 我 可 能 会 专门 写 一 本 有 关 Linux 
SMP 的 书 . 
3) 设置 子 进程 的 state 参数 为 TASK _RUNNING,prio 参数 为 当前 进程 的 normal _ prio 
参数 。 注 意 子 进程 将 继承 父 进程 的 normal _ prio 参数 ,而 不 是 prio 参数 。 这 样 做 的 主要 目的 
是 为 了 避免 因为 Priority Inherit 引起 的 prio 参数 与 normal _ prio 参数 不 同步 的 问题 。 此 外 将 
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state 参数 设置 为 TASK _RUNNING 并 不 意味 着 当前 进程 已 经 可 以 运行 。 只 有 子 进程 放 人 到 
进程 运行 队列 后 , 才 可 能 被 Linux 系统 进程 调度 程序 选中 ,获得 CPU 资源 并 运行 。 

4) 初始 化 子 进程 描述 符 的 run _ list,array 和 sched info 参数 。 如 果 Linux 系统 支持 抢占 
式 内 核 , 此 时 将 子 进程 描述 符 一 thread _ info>preempt count 参数 置 为 1, 表示 子 进程 暂时 不 
能 被 强占 ， 

5) 根据 当前 进程 的 time _ slice 参数 ,初始 化 子 进程 的 time _ slice 和 first _ time slice 参 
数 , 并 改变 当前 进程 的 time _ slice 参数 。Linux 系统 采用 第 5.1.2 节 中 描述 的 算法 调整 子 进程 
和 当前 进程 的 time slice 和 first _ time slice 参数 ， 

sched _ fork 销 数 执行 完毕 后 ,copy _ process 函数 根据 clone _ flags 参数 进一步 对 子 进程 描 
述 得 的 其 他 属性 进行 初始 化 设置 ,直到 子 进程 描述 符 创建 完毕 ， 

3. 激活 子 进程 

copy _ process 图 数 执行 完毕 后 ,Linux 系统 在 do _ fork 函数 中 使 用 wake _ up new task 
函数 激活 子 进程 ,do _ fork 函数 在 激活 子 进程 之 前 ,使 用 “completion” 机 制 对 vfork 系统 调用 进 
行 专门 的 处 理 , 其 源 代码 如 下 : 


A/# do .fork 函数 源 代码 片段 3 */ 
{ (1 IS_ ERR(p)) | 
struct completion vfork:; 


if (clone_ flags & CLONE VFORK) | 
“ p>vfork_ done = &&viork; 
init _ completion( 色 vifork); 
| 


i (! (clone_ flags & CLONE_ STOPPED)) 
wake_up_ new_ task(p, clone_ flags); 
else 
p->state = TASK _STOPPED; 


让 (done _ flags & CLONE_ VFORK) | 
wait for_ completion( &viork): 
if (unlikely (current- >ptrace & PT_TRACE_VFORK _ DONE)) | 
current- > ptrace_ message = mr; 
ptrace_ notify ((PTRACE _EVENT _ VFORK_ DONE << 8) | SIGTRAP); 
| 
| 
| else | 
free_ pid(pid); 
nr = PTR_ ERR(p); 
| 
returTn Tr; 


| /¥ Enddo_fork */ 
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在 Linux 系统 中 ，“completion "是 一 种 简单 的 同步 机 制 。 与 Linux 系统 中 的 其 他 同步 机 制 
不 同 ,complete 国 数 和 wait _ for _ completion 国 数 用 于 实现 程序 同步 ,而 不 是 数据 同步 。 

程序 员 在 使 用 completion 之 前 ,必须 在 文件 中 包含 linuxycompletion.h, 同时 创建 一 个 
struct completion 类 型 的 变量 。 这 个 变量 可 以 宏 DECLARE _COMPLETION 静态 地 声明 和 初 
始 化 ,也 可 以 使 用 init _completion 函数 动态 的 初始 化 completion 变量 ， 

如 果 一 个 程序 需要 等 待 某 个 过 程 的 完成 才能 继续 执行 时 ,可 以 调用 wait _ for _ completion 
图 数 等 待 completion 事件 的 完成 。 如 果 该 事件 已 经 完成 , 则 调用 以 下 两 个 函数 唤醒 等 待 该 事 
件 的 进程 。 

(1) void complete( struct completion * comp); 

(2) void complete _all(struct completion * comp); 

complete 函数 和 complete _ all 函数 的 区 别 在 于 前 一 个 国 数 将 只 唤醒 一 个 等 待 进程 ,而 后 

-个 函数 唤醒 等 得 该 事件 的 所 以 进程 ， 

在 Linux 系统 中 ,complete 函数 和 wait _ for _ completion 国 数 需 要 成 对 出 现 。complete 霄 
数 和 wait _ for _completion 函数 的 源 代 码 在 . /kernel/sched.c 文件 中 ,本 书 不 再 对 这 两 个 晴 数 
进行 详细 说 明 。 

在 do _ fork 函数 中 ,使 用 了 init -completion 和 wait _ for _ completion 国 数 处 理 vfork 系统 
调用 。 这 一 组 函数 对 父子 进程 进行 同步 处 理 , 父 进程 需要 等 待 子 进程 执行 系统 调用 execve 后 
或 者 执行 完毕 后 , 父 进程 才能 继续 执行 ， 

在 执行 execve 系统 调用 或 者 子 进程 执行 完毕 后 ,将 会 调用 mm _ release 图 数 。 该 函数 调 
用 completion 函数 标志 当前 的 vfork ”done 事件 已 经 结束 。 该 函数 的 源 代码 如 下 ， 

void mm _ release( struct task struct * tsk, strict mm __ struct * mm) 
| 
struct completion ¥ viork done = tsk->viork _ done; 


/¥ notify parent sleeping on vfork() * / 
if (vfork _ done) | 
tsk->vfork_ done = NULL; 
complete( vfork _ done); 
| 


| yx End mm release */ 


在 init _ completion 函数 和 wait _ for _completion 国 数 之 间 ,do _ fork 国 数 才 调用 wake _ 
up _ new _task 函数 激活 子 进程 。 因 此 如 果 do _ fork 函数 是 在 处 理 vfork 系统 调用 ,那么 子 进 
程 一 定 在 父 进 程 之 前 执行 。 

wake up _ new _ task 函数 的 源 代码 在 . /kernel/sched.c 文件 中 ,下 文 将 详细 介绍 该 消 数 。 

wake up _ new _ task 函数 一 共有 两 个 输入 参数 p 和 clone flags, 参 数 p 指 向 子 进程 的 进 
程 描 述 符 , 而 clone _ flags 与 do _ fork 函数 的 clone _ flags 参数 的 定义 相同 。 
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void fastcall wake_ up_new _ task(struct task_ struct * p, unsigned long clone flags) 
| 

rq = task_rq_ lock(p, &{flags): 

BUG ON(p->state | = TASK RUNNING). 

this_ cpyu = smp _ processor _ id(); 

cpo = task cpu(p); 

p>sleep_ avg = JIFFIES. TO_ NS(CURRENT_ BONUS(p) * 

CHILD PENALTY /100 * MAX SLEEP AVG /MAX BONUS); 


p->prio = effective _ prio(p): 
首先 wake _ up _ new _ task 函数 将 进程 运行 队列 加 锁 , 然 后 获得 cpu 和 this cpu 变量 。 
其 中 cpu 变量 用 来 存放 子 进程 将 所 使 用 CPU 资源 ,而 this _ cpu 变量 存放 当前 进程 使 用 的 
CPU 资源 . 即 父 进程 所 使 用 的 CPU 资源 
这 段 函 数 初始 化 子 进程 描述 符 的 sleep ”avg 参数 ,并 调用 effective _ prio 因数 初始 化 其 
prio 参数 ,effective _ prio 函数 的 定义 见 5.1.2 节 . 在 effective _prio 函数 执行 完毕 后 , wake 
up _ new _ task 图 数 将 使 用 以 下 程序 将 子 进程 加 入 到 进程 运行 队列 中 : 


if (likely(cpu = = this cpu)) | 
i (1 (clone_flags & CLONE VM)) | 
if (unlikely(! current- >array)) 
_ activate _ task(p, rq); 
else | 
Pprio = current- > prio; 
P- 之 normal _ prio = eyrrent- >nonnal _ prio; 
list_ add _ tail(&p->run_ list, &eurrent- >run list); 
Pp->array = curent- > array; 
Pp->array->nr_ active 十 十 ; 
ine_ nr _ running(p, rq); 
| 
set _ need _ resched( ); 
| else 
_ activate _ task(p, rq); 
this_ 下 = 19; 
以 上 这 段 程序 是 wake _ up _ new _ task 函数 的 关键 部 分 ， 这 段 程序 使 用 _ activate _ task 
时 数 将 子 进程 加 入 到 进程 运行 队列 中 ,然后 等 待 调度 程序 使 子 进程 获得 CPU 资源 。 其 详细 执 
行 步 又 如 下 : 
1) 比较 cpu 与 this _cpu 变量 是 否 相 等 。 在 单 CPU 处 理 器 系统 中 ,cpu 与 this _cpu 变量 
- 定 相等 ;在 多 处 理 器 系统 中 ,如 SMP 系统 ，cpu 与 this _ cpu 变量 在 大 多 数 情况 下 也 相等 ,但 
是 有 时 cpu 和 this _cpu 的 值 并 不 相等 ， 
2) 如 果 clone _ flags 参数 中 的 CLONE VM 位 没有 使 能 ， 即 父子 进程 没有 共 译 虚 存 空间 ， 
此 时 Linux 系统 需要 子 进程 优先 运行 。 此 时 , 子 进程 的 run _ list 参数 被 加 入 到 当前 进程 的 run 
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_ list 参数 之 前 , 即 在 Linux 系统 的 进程 运行 队列 中 , 子 进 程 在 父 进程 之 前 。 采 用 这 种 方式 创 
建 子 进程 的 主要 原因 是 Linux 系统 采用 了 COW (Copy-On-Write) 扩 术 。 当 父子 进程 没有 共享 
虚 存 空间 时 , 子 进程 率先 执行 ,从 而 有 效 地 降低 因为 处 理 COW 页 而 产生 的 数据 异常 的 频率 ， 
在 Linux PowerPC 中 ,处 理 这 个 异常 的 函数 为 do page fault 函数 ,该 函数 的 详细 描述 见 
Fi 

(3) 如 果 clone _ flags 参数 中 的 CLONE _VM 位 使 能 , 即 父子 进程 共享 虚 存 空间 时 ,wake 
_ up _ new _ task 国 数 使 用 _activate _ task 图 数 将 子 进 程 加 人 到 进程 运行 队列 中 ,此 时 了 于 进程 
将 加 入 到 父 进程 之 后 (注意 ,使 用 list _ add _ tail 函数 将 子 进程 加 入 到 进程 运行 队列 的 父 进 程 
之 机) 


| else | 
this_rq = cpu_ rqlthis_ cpu); 
p>timestamp = (p->timestamp - this_ rq-> timestamp _ last _ tick) 

+ rq->timestamp _ last _ tick: 
_ activate _ task(p, rg); 
i{ (TASK _PREEMPTS CURR(p, rq)) 
resched _ task(rq- > curr); 

task _ rg_ unlock(rq, 点 flags); 
this_ rg = task_rq_ lock(current， 履 flags); 

task rg_ unlock(this_ rg, &flags):; 

| /x End wake up_new task */ 

如 果 cpu 与 this _ cpu 变量 不 相等 , 则 表示 父子 进程 没有 在 相同 的 CPU 中 执行 ,此 时 必须 
对 子 进程 的 timestamp 参数 重新 进行 计算 。 在 Linux SMP 系统 中 ,每 一 个 CPU 都 有 自己 的 进 
程 运行 队列 ,并 有 各 目的 timestamp _ last _ tick 参数 

timestamp _ last _ tick 参数 存放 最 近 一 次 系统 时 钟 异 党 发生 的 时 间 ,而 在 Linux SMP 中 ， 
每 一 个 CPU 都 有 独立 的 系统 时 钟 异常 。 因 此 当 父 子 进程 在 不 同 的 CPU 中 执行 时 ,必须 进行 
时 间 同 步 。 

wake up _ new _ task 函数 最 后 将 调用 task _ rq _ unlock 将 进程 运行 队列 解锁 。do _fork 
函数 在 执行 完 wake _ up _ new _ task 函数 后 将 子 进 程 加 入 到 进程 运行 队列 中 ,此 后 于 进程 可 
以 被 进程 调度 程序 选中 ,获得 CPU 资源 运行 

4. 进程 地 址 空间 的 更 换 

在 Linux 系统 中 ,核心 进程 和 用 户 进程 调用 do_ execve 图 数 实现 进程 地 址 空间 的 更 换 , 这 

-过 程 也 被 称 为 可 执行 文件 的 执行 。do _ execve 函数 从 文件 系统 中 获得 可 执行 文件 的 映像 ， 
然后 将 当前 进程 的 地 址 空间 更 改 为 可 执行 文件 中 存放 的 地 址 空间 。 

核心 进程 调用 do _ execve 函数 更 换 进 程 地 址 空间 后 ,将 当前 核心 进程 使 用 的 正文 段 ,数据 
段 更 换 为 do _execve 函数 指定 的 可 执行 文件 中 的 正文 段 和 数据 段 ,并 为 该 进程 重新 建立 用 户 
堆栈 空间 ,将 核心 进程 更 改 为 用 户 进 程 。 目 前 Linux 系统 中 只 有 核心 进程 init 再 要 再 用 do _ 
execve 函数 将 核心 进程 改变 为 用 户 进 程 。 核 心 进程 一 旦 改变 为 用 户 进程 后 ,将 不 能 恢复 为 核 
心 进程 
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用 户 进 程 调用 do _ execve 如 数 更 换 进 程 地 址 空间 的 时 ,将 当前 用 户 进 程 使 用 的 正文 段 , 数 
据 段 更 换 为 do _execve 函数 指定 的 可 执行 文件 中 的 正文 段 和 数据 段 。do _ execve 函数 在 ./ 
fs/exec.c 文件 中 。do _ execve 函数 的 实现 ,关键 在 于 search _ binary handler 函数 。 在 此 函数 
中 判断 当前 可 执行 文件 的 类 型 ,然后 使 用 不 同 的 加 载 程 序 将 存放 在 文件 系统 中 的 可 执行 文件 
加 载 到 内 存 中 ,并 替换 当前 进程 的 地 址 空间 ,读者 可 以 参考 图 2-1 了 解 有 关 do _ execve 函数 的 
执行 流程 。 

在 Linux 系统 中 ,最 常用 的 可 执行 文件 类 型 为 ELF 格式 ,在 do _ execve 函数 中 进程 可 以 
使 用 load _ elf _ binary 函数 加 载 可 执行 文件 ,load _ elf _ binary 函数 的 定义 在 . /fs/binfmt _ 
elf.c 文件 中 。 该 函数 的 主要 作用 是 根据 存放 在 文件 系统 中 的 可 执行 文件 对 当前 进程 的 内 存 
摘 述 符 , 即 current>mm 参数 进行 重新 赋值 ,并 使 用 elf_ map 和 do mmap 函数 将 可 执行 文件 
中 的 正文 段 和 数据 段 映射 到 内 存 中 ,最 后 load _ elf _ binary 函数 将 调用 start _ thread 函数 将 进 
程 摘 述 符 中 存放 的 通用 寄存 器 进行 初始 化 。 理 解 该 函数 的 关键 在 于 理解 ELF 文件 的 格式 ,对 
此 本 书 将 不 再 进行 详细 说 明 ， 


5.3.2 进程 的 结束 


在 Linux 系统 中 ,有 些 进程 始终 无 法 结束 。 如 初始 化 进程 init _task,init 进程 和 许多 核心 
进程 ,然而 绝 大 多 数 用 户 进程 可 以 使 用 exit 系统 调用 结束 。 

在 Linux 系统 中 , 仅 使 用 exit 系统 调用 无 法 将 进程 及 其 进程 使 用 的 资源 完全 释放 。 一 个 
进程 的 结束 必须 要 其 父 进 程 协调 完成 ,其 中 子 进程 使 用 exit 系统 调用 释放 子 进程 使 用 的 大 部 
分 资源 ,而 父 进 程 使 用 系统 调用 wait4 释放 子 进程 使 用 的 进程 描述 符 。 

1. exit 系统 调用 

在 Linux 内 核 中 ,系统 调用 exit 使 用 sys _ exit 函数 实现 ,该 函数 在 , /kernel/exit.c 文件 
中 ,其 源 代码 如 下 : 

asmlinkage long sys_ exit(int error _ code) 
| 

do_ exit((error_ code@&0xff) < <8); 
| 


Linux 系统 调用 sys _exit>do exit 函数 实现 exit 系统 调用 ,do__exit 函数 的 源 代 码 在 ./ 

kernelAexit.c 文件 中 - 
fastcall NORET _ TYPE void do_ exit(long code) 

do _ exit 图 数 只 有 一 个 输入 参数 code, 该 参数 表示 进程 的 返回 状态 ,该 函数 没有 返回 值 
此 外 在 void 参数 之 前 ,do _exit 函数 有 一 个 前 级 NORET_TYPE。NORET _TYPE 前 组 在 ./ 
includevlinuxvlinkage.h 文件 中 定义 ,其 等 效 于 “/*x * 人 。 因 此 对 于 编译 器 而 言 , 这 个 前 绥 并 
没有 什么 实际 意义 ,Linux 源 代码 设置 NORET _ TYPE 前 缀 ,用 来 表示 当前 函数 不 但 没有 返 
回 值 , 而 且 也 不 会 返回 . 

当 一 个 进程 执行 完毕 do _ exit 函数 后 ,Linux 系统 将 释放 该 进程 使 用 的 所 有 系统 资源 。 
因此 do _ exit 函数 不 会 返回 到 sys _ exit 函数 中 ,sys _ exit 函数 也 无 法 结束 当前 系统 调用 , 回 到 
该 进程 地 址 空间 继续 执行 。do _ exit 函数 使 用 schedule 函数 将 对 当前 进程 进程 进行 切换 ,因此 
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对 于 当前 进程 do _ exit 函数 将 不 会 返回 。 在 Linux 进程 管理 与 调度 模块 中 有 许多 函数 都 无 法 
返回 到 调用 者 。do _ exit 函数 首先 进行 一 些 状态 检查 ,其 代码 如 下 : 


| 


if (unlikely(in _ interrupt( ))) 

panic( Aiee, killing interrupt handler!”); 
if (unlikely( ! tsk->pid)) 

panic( Attempted to kil the idle task!’ ); 


if {unlikely( tsk = = child _ reaper( tsk))) | 
if (tsk->nsproxy->pid _ ns! = &init_ pid _ ns) 
tsk- >nsproxvy- >pid ns->child_ reaper = init_pid_ns.child reaper; 
else 
panic( Attempted to kil] init!” ); 


if (unlikely(current- >ptrace &@ PT TRACE EXIT)) | 
current- > ptrace_ message 三 code 
ptrace_ notify( (PTRACE_ EVENT __ EXIT << 8) | SIGTRAP); 
| 

这 段 代 码 的 详细 说 明 如 下 : 

(1) 如 果 do _ exit 图 数 由 中 断 服务 程序 调用 , 则 调用 panic 函数 将 系统 挂 起 。 因 为 在 正常 
情况 下 .中断 服务 程序 不 可 能 调用 do _ exit 图 数 。Linux 系统 使 用 in _ interrupt 图 数 判断 当前 
运行 的 程序 是 否 为 中 断 服务 程序 ， 

(2) 如 果 当 前 进程 描述 符 的 pid 参数 为 0, 则 当前 进程 为 init _task 进程 ,此 时 将 调用 panic 
函数 ,将 系统 挂 起 。 因 为 Linux 系统 不 能 将 init _task 进程 结束 ， 

(3) 如 果 当 前 进程 是 child _ reaper 进程 ,此 时 将 调用 panic 函数 ,将 系统 挂 起 。child _ 
reaper 进程 用 来 处 理 所 有 没有 父 进程 的 子 进程 。 在 Linux 系统 中 ,有 时 子 进程 在 结束 之 前 , 父 
进程 已 经 结束 ,此 时 Linux 系统 使 用 child _reaper 进程 处 理 这 些 子 进 程 。child _ reaper 的 进程 
描述 符 被 . /init/main.c 文件 的 init 函数 赋值 ,该 进程 与 init 进程 等 效 。 

(4) 如 果 当 前 子 进程 被 ptrace 跟踪 ,Linux 系统 使 用 信号 机 制 通知 ptrace 进程 。 当 前 正在 
被 跟 踊 的 进程 即将 被 中 止 。 

do _ exit 图 数 完成 参数 检查 后 ,将 继续 执行 ， 


if (unlikely(tsk- >{lags & PF EXITING)) | 
printk(KERN ALERT "Fixing recursive fault but reboot is needed! An ); 
if (tsk- >io context) 
exit _ io_ context( ) ; 
set_ current state(TASK _ UNINTERRUPTIBLE); 
schedule( ); 
| 
tsk- >flags |= PF. EXITING:; 
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如 果 当 前 进程 描述 符 的 flags 参数 的 PF _ EXITING 位 为 1, 表示 当前 进程 执行 的 do exit 
国 数 是 被 do _ exit 函数 调用 的 , 即 在 do -exit 函数 中 递归 调用 do exit 函数 ,因为 进程 描述 符 
的 flags 参数 的 PF _EXITING 位 只 可 能 在 do _ exit 函数 中 被 设置 。 

正常 情况 下 不 可 能 出 现 执 行 上 述 源 代码 的 情况 。 这 里 提醒 读者 注意 ,在 一 个 并 不 过 分 追 
求 效 率 的 程序 里 ,不妨 对 可 能 出 现 的 条 件 进行 检查 ,也许 这 些小 的 处 理 将 有 助 于 诊断 出 一 个 异 
党 复杂 的 系统 级 bug。 

随后 这 上 段 程序 将 当前 进程 描述 符 的 flags 参数 的 PF _ EXITING 位 置 1 ,之 后 do _ exit 函 
数 继续 执行 以 下 程序 ,将 当前 进程 使 用 的 各 项 资源 逐一 释放 。 


exit _ mm( tsk); 

if (group _ dead) 
acct _ process( ) ; 

exit _ seml( tsk); 

_ exit files(tsk): 

_exit fs(tsk); 

exit _ thread{ ) ; 

cpuset _ exit( tsk); 

exit keys( tsk); 


exit _ notify{ tsk); 


Linux 系统 在 进程 结束 时 需要 释放 其 占用 的 所 有 资源 。 在 5.3.1 节 中 可 以 发 现 , 子 进程 
在 创建 时 从 父 进程 继承 了 一 系列 资源 。 这 些 资源 必须 在 进程 结束 时 被 释放 。 进程 释放 资源 的 
过 程 基 本 上 是 进程 创建 时 获得 相应 资源 的 的 道 过 程 。 只 是 在 子 进程 释放 资源 时 ,需要 调用 
exit _ notify 国 数 。 

彻底 理解 exit _ notify 函数 需要 读者 对 Linux 进程 间 通信 机 制 有 一 定 认识 。exit _notify 
蚊 数 使 用 do _ notify _ parent 国 数 向 父 进程 发 出 结束 信和 号 ,之 后 父 进程 选择 合适 的 时 机 运行 ， 
释放 子 进 程 的 进程 描述 符 。 进程 描述 符 中 有 两 个 参数 ,parent 和 real _parent 参数 ,用 来 描述 
进程 的 父 进程 ,这 两 个 参数 在 大 多 数 时 间 是 相同 的 ,只 有 使 用 ptrace 系统 调用 对 当前 进程 进行 
跟 足 时 ,这 两 个 参数 不 同 。 子 进程 结束 时 ,将 向 该 进程 的 parent( parent 进程 是 指 parent 参数 
措 问 的 进程 ) 进 程 发 出 结束 信号 . 

在 茶 些 情况 下 ,parent 进程 可 能 会 提前 结束 ,此 时 parent 进程 需要 选择 其 他 进程 托管 其 子 
进程 。 一 般 来 说 ,parent 进程 在 其 结束 前 使 用 当前 进程 组 的 第 一 个 进程 托管 其 子 进程 。 如 果 
该 进程 组 的 第 一 个 进程 也 已 经 结束 ,将 使 用 init 进程 , 即 Linux 系统 的 进程 1 ,托管 子 进程 ,这 
也 征 Linux 系统 的 init 进程 也 被 称 为 child _ reaper 进程 的 原因 。 

exit _ notify 图 数 调用 do _ notify _ parent 隙 数 后 ,将 子 进程 描述 符 的 state 参数 改 为 EXIT 
_ ZOMBIE。 如 图 5-6 所 示 , 当 进程 进入 EXIT_ ZOMBIE 状态 后 ,将 再 也 没有 机 会 被 schedule 
盟 数 选中 获得 CPU 资源 。 
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if (unlikely(! list_ empty(&tsk- >pi state list))) 
exit pi_ state list(tsk); 
if (unlikely(current- >pi state_ cache)) 
kfree(current- >pi_ state_ cache); 
A 并 
关 Make sure we are holding no locks: 
¥ A 
debug check no_ locks_ held(tsk); 
if (tsk- >io_ context) 
exit _ io context( ) ; 
if (tsk- > splice _ pipe) 
_free_ pipe_ info( tsk- > splice_ pipe):; 
preempt _ disable( ) ; 
A¥ causes final put _ task struct in finish task switch()}. */ 
tsk- >srate = TASK DEAD:; 


schedule( ) ; 


| /x Enddo_ exit #*/ 

do _ exit 函数 随后 将 继续 释放 子 进程 的 所 有 资源 ,然后 将 子 进程 描述 符 的 state 参数 设置 
为 TASK _ DEAD, 最 后 调用 schedule 函数 进行 切换 ,从 而 最 终 完成 子 进程 的 运行 ， 此 时 子 进 
程 将 完全 释放 所 使 用 的 资源 ,只 有 其 进程 描述 符 仍 然 存在 . 

Linux 系统 在 处 理 进程 的 结束 时 设置 了 两 个 状态 EXIT_ ZOMBIE 和 TASK_ DEAD.。 其 
原因 是 为 了 防止 在 进程 在 结束 时 受到 进程 调度 程序 的 干扰 。 因 此 Linux 系统 首先 将 进程 状态 
议 置 为 EXIT_ ZOMBIE, 此 时 子 进程 已 经 不 能 被 调度 程序 选中 ,exit _ notify 函数 执行 后 , 父 进 
程 可 能 被 唤醒 ,此 时 父 进程 可 以 安全 地 将 子 进程 描述 符 释 放 - 最 后 do _ exit 函数 将 进程 状态 
设置 为 TASK _DEAD, 调 用 schedule 函数 将 子 进程 切换 出 去 ,至 此 子 进程 结束 其 生命 周期 , 完 
成 运行 的 全 过 程 

2. waitpid 系统 调用 

waitpid 系统 调用 的 主要 作用 是 释放 子 进程 残留 的 进程 描述 符 , 从 而 最 终 释 放 子 进程 占用 
的 系统 空间 。 Linux 系统 调用 sys _waitpid->sys _ wait 一 do _ wail 图 数 实现 wait 系统 调用 
在 Linux 系统 中 , 父 进 程 使 用 系统 调用 wait4 和 waitpid 释放 子 进程 的 进程 描述 符 。 一 个 典型 
的 父 进程 等 竺 子 进程 结束 的 例子 如 下 所 示 : 


rmmaint ) 


| 
D 


pid = fork( ); 
if(pid= =0) | 


YX# child process ¥* / 
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exit(0); 
| 


waitpid( pid, NULL.0) 
| 

在 上 述 程序 中 , 子 进程 调用 exit 函数 向 父 进程 发 出 信号 ,表示 子 进 程 已 经 执行 完毕 。 如 果 
程序 员 在 书写 程序 时 ,忘记 在 子 进程 结束 时 调用 exit 函数 也 没有 关系 ,因为 Linux 系统 在 子 进 
程 结束 后 .会 自动 调用 这 个 函数 ,即便 程序 员 没 有 显 式 地 编写 这 个 函数 ， 

子 进程 结束 后 ,会 发 出 信号 唤醒 父 进 程 ,此 时 父 进 程 将 调用 waitpid 函数 将 子 进程 描述 符 
释放 。 在 以 上 程序 中 ,如 果子 进程 不 结束 , 父 进 程 将 一 直 在 waitpid 函数 中 等 待 子 进程 的 结束 ， 
如 果 在 上 述 程 序 中 父 进 程 没有 调用 waitpid 函数 就 退出 执行 , 则 其 子 进程 将 成 为 僵尸 进程 .其 
子 进 程 的 进程 描述 符 将 由 init 进程 释放 。 

do _ wait 函数 的 主要 作用 是 释放 子 进程 的 进程 描述 符 , 该 函数 在 . [kernelvexit.c 文件 中 ， 


static long do_ wait(pid _ t pid, int options, struct siginfo _ user * infop, 
int _ tlser # stat addr, struct rusage _ user # ru) 
| 
DECLARE WAITQUEUE(wait, current):; 
struct task struct * tsk; 
int flag, retval; 


add wait _ queue( Qcurrent- > signal- > wait _ chldexit, &wait); 
repeat: 

flag = 0; 

current- >state = TASK INTERRUPTIBLE: 

read _ lock( &tasklist _ lock): 

tsk = current; 


do | 


list_ for each( p,&tsk->children) | 
p= list_entry(_ p, struct task _ struct, sibling); 
ret = eligible_ child(pid, options, p); 
if (1 ret) 
continue; 
switch (p->state) | 


detault: 
if (p->exit state = = EXIT_ DEAD) 
continue; 
if (p->exit state = = EXIT ZOMBIE) | 
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if (ret = = 2) 
goto check _ continued; 
证 (1 likely(options 芒 WEXITED)) 
continue; 
retval = wait_ task zombie(p, (options 攻 WNOWAIT), infop, stat _ addr, m); 
if (retval ! = 0) 


Hag = 1; 
if (1! unlikely(options &@ WCONTINUED)) continve; 
retval = wait task continued(p, (options 芒 WNOWAIT), infop, stat_ addr, mu); 
if (retval | = 0) goto end; 
break; 
| A/* End switch p>state */ 
| ;， A/ End list for each */ 


rsk = next _ thread( tsk); 
BUG ON(tsk- >signal ! = current- >signal); 
| while (tsk 1! = current); 


if (flag) 1 

retval = 0; 

if (options 用 WNOHANG) 
goto end; 

retval = -ERESTARTSYS,; 

if (signal pending(current)) 
goto end; 

achedule( ) : 


goto repeat: 


| 
retval = -ECHILD:; 
end: 


return retval; 
1 7 Enddo wait */ 
do ”wait 函数 的 主体 在 标号 repeat 和 end 之 间 。 如 果 父 进程 没有 收 到 子 进程 的 结束 信 
号 , 则 将 在 schedule 函数 执行 后 睡眠 , 直到 子 进程 发 出 结束 信号 ,唤醒 父 进 程 。 当 父 进程 被 激 
活 后 ,将 进行 以 下 操作 
1) 设置 当前 进程 描述 符 的 state 参数 为 TASK _INTERRUPTIBLE, 获 得 锁 tasklist _ lock 
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为 即将 执行 的 代码 加 锁 。 然 后 将 tsk 变量 设置 为 current. tsk 变量 是 do-while 循环 使 用 的 临时 
释 量 ,该 值 next _th 被 read 函数 不 断 进 行 更 新 ,直到 父 进程 将 所 有 子 进程 扫描 完毕 

2) 在 do-while 循环 中 , 父 进程 对 所 有 子 进程 进行 检查 ,如 果子 进程 状态 为 EXIT_ DEAD 
或 EXIT ZOMBIE 时 ,将 调用 wait _ task _ continued 一 put _ task struct 国 数 释放 子 进 程 描 


5.3.3 进程 的 等 待 


进程 在 运行 过 程 中 ,有 时 需要 等 待 某 些 信号 或 者 中 断 - 此 时 ,Linux 系统 为 了 提高 CPU 
的 使 用 率 ,会 主动 地 将 当前 进程 切换 到 等 待 状态 ,让 出 CPU 资源 ,由 调度 程序 选择 合适 的 进程 
使 用 CPU。， 当 进程 需要 等 待 某 些 信号 或 者 中 断 资源 时 ,该 进程 将 进入 等 待 状态 ;而 当 进程 需 
要 的 信和 号 或 者 中 断 来 临时 将 在 处 于 等 待 状态 的 进程 唤醒 
Linux 系统 为 了 有 效 地 对 处 于 等 待 状态 的 进程 进行 管理 ,设置 了 等 待 队 列 WQ(Wait 
Queue, WQ) 及 对 等 竺 队列 进行 管理 的 一 系列 函数 。 当 进程 因为 某 种 原因 进入 等 待 状态 后 ， 
Linux 系统 会 将 这 些 进程 插 人 到 相应 的 等 待 队 列 中 ; 当 进 程 退出 等 待 状态 时 , 这些 进程 将 从 相 
应 的 等 待 队列 中 摘除 . 
1. 等 待 队列 (Wait Queue) 
为 了 便于 对 处 于 等 待 态 的 进程 进行 管理 和 控制 ,Linux 系统 可 以 根据 需要 ,设置 许多 等 待 
从 列 - Linux 系统 使 用 数据 结构 wait queue head 上 描述 这 些 等 待 队 列 ， 
struct _ wait _queue . head | 
spinlock _ t lock: 
struct list head task _ list: 


] 时 
typedef struct wait queue_ head wait queue head +: 


数据 结 移 wait _ queue _ head _t 有 两 个 参数 ,分 别 是 lock 和 task _ list。 其 中 lock 参数 保 
仔 访 问 等 待 队列 的 自 旋 锁 , 而 task _ list 参数 保存 在 这 个 队列 中 存放 的 进程 描述 符 链表 , 即 在 
瘟 等 待 队 列 中 等 待 的 进程 。 
Linux 系统 使 用 init_ waitqueue ”head 函数 初始 化 等 待 队 列 。 系统 程序 员 可 以 在 文件 系 
统 、 网 络 协议 栈 及 初始 化 一些 设 备 驱动 程序 时 调用 该 函数 ,以 初始 化 这 些 模 块 使 用 的 等 待 队 
列 。 程序 员 可 以 根据 需要 在 一 个 模块 中 设置 多 条 等 待 队 列 ,init waitqueue _ head 函数 首先 初 
始 化 该 队列 使 用 的 自 旋 锁 , 然 后 将 队列 头 指针 进行 初始 化 ， 
该 图 数 的 源 代码 在 . /kernel/wait.c 文件 中 ,其 源 代码 详解 如 下 : 
void init waitgueue head{wait queue_head t *g) 
| 
spin _ lock _init( &q- > lock):; 
INIT IGT TEAD Gq >iak ld, 


在 Linux 系统 中 ,处 于 等 待 状态 的 进程 与 在 在 等 待 队列 中 的 一 个 Entry 相对 应 。 每 一 个 
等 竺 队列 中 的 Entry 使 用 wait _queue 1 结构 进行 描述 ,wait queue +t 结 构 如 下 所 示 : 
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typedef struct ”wait _ queue wait _ gueue Ti 
struct _ wait _ gueue | 
unsigned int flags; 
#define WQ_ FLAG_ EXCLUSIVE 0x01 
void * private; 
wait _queue _ fune _ t funci 
struct lisr head task _ list; 
FE 
wait _ queue 结构 较为 简单 ,一 共 定 义 了 四 个 参数 flags,private, func 和 task list 参数 . 
(1) private 参数 保存 进程 描述 符 。 
(2) fune 参数 保存 等 待 队列 中 的 唤醒 函数 指针 。 在 等 待 队 列 中 ,每 一 个 Entry 可 以 独立 
设置 各 目的 唤醒 函数 。 
(3) task _ list 参数 将 所 有 属于 同一 个 等 待 队列 的 进程 链接 在 一 起 . 
(4) flags 参数 相对 较为 复杂 。 该 参数 表示 当前 等 待 队 列 中 Entry 的 属性 .这 个 属性 的 值 
可 以 是 0 也 可 以 是 宏 WQ _ FLAG_ EXCLUSIVE。 当 此 属性 为 0 时 ,当前 Entry 对 应 的 进程 
与 其 他 进程 共享 等 竺 条件 ; 当 此 属性 为 WQ FLAG EXCLUSIVE, 即 为 1 时 ,当前 Entry 对 
应 的 进程 独 圣 等 等 条 件 , 即 当 此 进程 被 激活 后 将 独占 当前 资源 而 导致 其 他 使 用 这 一 资源 的 进 
Linux 系统 使 用 add _ wait _ queue 国 数 将 进程 加 人 到 等 竺 队列 的 头 部 ， 该 函数 的 源 代 三 
如 下 所 示 。add _ wait _ queue 函数 将 进程 加 入 到 等 竺 队列 的 头 部 的 同时 将 等 待 队列 中 相应 
Entry 的 flags 位 置 为 0。 
void fastcall add wait queue(wait queue head t *q, wait queue _t 关 Wait) 
| 
unsigned long flags; 
wait- >flags 区 = 一 WQ_FLAG_EXCLUSIVE; 
spin lock _irqsave( &q- >lock, flags):; 
_add _ wait queue(q, wait); 
spin unlock _ irgrestore( &q- > lock, flags); 
| 


Linux 系统 还 可 以 使 用 add_wait _queue _exclusive 国 数 将 进程 加 人 到 等 待 队 列 的 尾部 
该 函数 的 源 代码 如 下 所 示 。add _ wait _queue 函数 将 进程 加 入 到 等 待 队 列 的 尾部 的 同时 将 等 
待 队 列 中 相应 Entry 的 flags 位 置 为 WQ_ FLAG _EXCLUSIVE。 
void fastcall add wait queue_ exclusive(wait queue_ head 1 *q, wait_ queue_t * wait) 
| 
unsigned long flags; 
wait->flags |= WQ_FLAG EXCLUSIVE; 
spin lock _ irgsave( 态 gq- >lock, flags); 


_add wait_ queue_ tail(gq, wait); 
spin_ unlock _ irgrestorel &q- >lock, flags); 
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由 以 上 源 代 码 我 们 可 以 发 现 , 在 一 个 进程 的 等 待 队 列 WQ 中 ,flags 位 为 0 的 Entry 被 存放 
在 等 待 对 列 的 头 部 ,而 flags 位 为 WQ FLAG EXCLUSIVE 的 Entry 将 被 存放 在 等 待 队 列 的 

如 果 一 个 程序 使 用 等 待 队 列 的 task _ list>next 访问 等 待 队 列 时 可 以 访问 到 flags 参数 为 
0 的 Entry, 而 使 用 等 等 队列 的 task list>prev 访问 等 待 队列 时 可 以 访问 到 flags 参数 为 1 的 
Entry。Linux 系统 按照 flags 位 的 不 同 将 在 等 待 队列 的 进程 分 为 两 类 的 主要 目的 是 ,加 快 等 待 
队列 中 进程 的 移出 速度 ， 

在 Linux 系统 中 ,一 般 只 将 一 个 flags 位 为 WQ _ FLAG_ EXCLUSIVE 的 进程 从 等 待 队 列 
中 移出 。 因 为 如 果 两 个 flags 位 为 WQ_ FLAG EXCLUSIVE 的 进程 被 同时 激活 时 ,只 有 一 
个 进程 可 以 获得 这 个 资源 , 另 一 个 没有 获得 此 质 源 的 进程 仍然 再 要 被 放 人 等 竺 队列 中 ,从 而 降 
低 了 CPU 的 使 用 效率 。 

add _ wait _ gueue 和 add wait queue ”exclusive 嚼 数 使 用 J spin _ lock _ irqsave 国 数 以 
防止 进程 操作 等 等 队列 进行 时 被 其 他 进程 干扰, 因为 其 他 进程 也 有 可 能 会 操作 此 等 等 队列 。 

2. 进程 运行 状态 到 等 待 状态 的 迁移 

在 Linux 系统 中 ,一 个 进程 无 法 获得 某 些 资源 ,如 Mutex、Semaphore, 信 号 或 者 某 些 中 断 
时 ,将 进入 等 竺 状态。 一 个 进程 也 可 以 根据 需要 主动 选择 进 人 等 待 状态 。 比 如 进行 DMA 操 
作 时 ,一 个 进程 将 与 DMA 操作 相关 的 相应 寄存 希 设 置 完 毕 后 , 束 可 以 主动 进入 等 待 状态 ,等 
待 DMA 完成 中 断 , 并 由 中 断 服 务 程 序 激活 该 等 待 进程 。 

程序 员 可 以 根据 需要 使 用 wait _event, wait _event _timeout.wait _event _interruptible 和 
wait _event _ interruptible _ timeout 国 数 自动 将 进程 从 运行 状态 迁移 到 等 竺 状态。 

wait _ event 和 wait _ event _ timeout 图 数 将 进程 放 人 等 待 队列 中 ,并 将 当前 进程 的 状态 设 
置 为 TASK _UNINTERRUPTIBLE, 即 在 等 竺 队列 中 的 进程 不 可 以 被 信号 激活 ,而 只 能 由 中 
声 事件 激活 。 而 wait _ event _ interruptible 和 wait _ event _interruptible _ timeout 函数 将 进程 
放 入 等 待 队列 中 ,并 将 当前 进程 的 状态 设置 为 TASK_ INTERRUPTIBLE, 即 在 等 待 队列 中 的 
进程 可 以 被 信号 和 中 断 事件 激活 。 

wait _event _ interruptible _ timeout 和 wait _ event _ timeout 函数 会 为 当前 等 待 进程 设置 
一 个 定时 器 。 当 等 待 进程 在 指定 的 时 间 内 没有 被 信号 或 者 中 断 激活 时 ,这 个 定时 器 将 激活 等 
行进 程 。 

以 上 这 四 个 函数 功能 及 实现 类 似 , 下 文 将 以 wait _ event 函数 为 例 说明 这 一 类 函数 。 在 
Linux 系统 中 ,wait _ event 函数 使 用 宏 定 义 的 方式 实现 , 宏 wait _ event 的 源 代码 如 下 所 示 : 


# define wait _ event(wq, condition) \ 
do | \ 
if (condition) \ 
break; \ 
_ wait_ event(wq, condition); \ 

| while (0) 


宏 wait _ event 有 两 个 参数 wq 和 condition。 宏 wait _event 首先 对 condition 进行 判断 ,如 

采 条 件 为 真 , 则 退出 do _ while 循环 ,表示 当前 进程 不 需要 进入 等 待 状态 ,否则 继续 调用 _ wait 

_ event 图 数 。_ wait _event 图 数 是 宏 wait event 的 主体 ,其 输入 参数 与 宏 wait_ event 完全 相 
了 30) 


#8define _ wait_ event(wq, condition) 
do | 
DEFINE WAIT( wait); 


for (33) | 
prepare_ to _ wait(&wg, & _ wait, TASK _ UNINTERRUPTIBLE):; 
if (condition) 

break; 

schedule( ) ; 

| 

finish_ wait( 帮 wdq, 态 _ wait); 

| while (0) 

宏 _ wait _ event 的 执行 流程 如 下 : 

1) 首先 使 用 宏 DEFILE_ WAIT 定义 一 个 wait _ queue _t 类 型 的 临时 变量 _wait, 并 将 此 
变量 的 func,private 和 task list 参数 分 别 初始 化 为 autoremove _ wake _ function, current 和 
LIST HEAD INIT((name).task list). 

2) 然后 宏 wait _ event 调用 prepare _ to _ wait 范 数 为 进程 进入 等 每 队列 wg 作 谁 备 ， 

3) prepare _ to _ wait 函数 执行 完毕 后 ， wait _ event 宏 需 要 对 condition 条 件 再 次 判断 。 

4) 如 果 此 时 condition 为 真 。 即 _wait _ event 函数 在 执行 宏 DEFINE _WAIT 和 prepare _ 
to _ wait 过 程 中 ,Linux 系统 中 的 condition 已 经 被 改写 为 真 ,此 时 进程 不 会 再 次 被 放 人 等 待 队 
列 ,而 是 直接 跳出 当前 for 循环 ,之 后 调用 finish _ wait 函数 。 如 果 此 时 condition 为 假 , 宏 _ 
wait _event 调用 schedule 函数 切换 当前 进程 。 当 等 竺 进程 被 激活 并 重新 获得 CPU 运行 后 ,将 
运行 宏 wait _ event 中 schedule 函数 之 后 的 程序 , 即 继续 调用 prepare _ to _ wait, 直到 condi- 
tion 条 件 为 真 后 退出 for 循环 。 

5) 退出 for 循环 后 , 宏 wait event 调用 finish _ wait 图 数 将 当前 进程 的 状态 设置 为 
TASK _RUNNING ,然后 将 _wait 变量 从 wa 等 待 队列 中 摘除 。 

prepare to_ wait 图 数 是 宏 wait _ event 中 的 关键 函数 ,其 源 代码 如 下 : 


prepare _ to_ wait(wait_ gueue_ head t+ *qg, wait queue _t * wait, int state) 
| 
unsigned long flags; 
wait->flags &= ~ WQ_ FLAG EXCLUSIVE:; 
spin_ lock _ irgsave( &q- >lock, flags); 
if (list_ empty(@wait- > task _ list)) 
_add_ wait_ gueue(g, wait); 
A 
* don t alter the task state if this is just going to 
# queue an async wait queue callback 
A 


eo 1 
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if (is_ sync_ wait(wait)) 
set current state(state); 
spin _ unlock _ irgrestore( &q- > lock, flags); 
| 


Prepare to wait 函数 首先 将 _ wait 变量 的 flags 参数 设置 为 0, 然 后 初始 化 等 待 队列 WU- 
prepare _ to _ wait 图 数 使 用 目 旋 锁 将 该 函数 执行 的 程序 保护 起 来 .同时 保证 在 函数 的 执行 过 
程 中 禁止 外 部 中 断 。 
如 采 当 前 进程 使 用 同步 [MO, 进程 的 状态 被 设置 为 TASK _UNINTERRUPTIBLE; 如 果 
使 用 异步 I/ 〇 操作 , 则 不 改变 进程 的 状态 。Linux 系统 经 常 使 用 同步 1/O 模型 , 即 当 进程 发 出 
1/ 〇 请 求 命 令 , 如 使 用 read 函数 对 I/O 〇 设备 进行 读 操 作 时 ,read 函数 将 被 阻塞 ,执行 read 函数 
的 进程 将 进入 等 待 状态 ,直到 I/O 请 求 被 满足 后 read 函数 才能 够 返回 。 
使 用 异步 1/ 〇 模型 的 进程 ,发 出 1/O 请 求 命令 后 ,如 使 用 read 函数 对 I/O 设备 进行 读 操 
作 时 ,read 函数 将 会 立即 返回 ,当前 进程 会 继续 执行 。 在 该 进程 执行 的 某 个 阶段 使 用 select 系 
统 调用 ,检测 再 要 获取 的 I/O 资源 是 否 在 系统 中 有 效 , 之 后 才能 够 使 用 read 函数 获得 的 数据 。 
在 Linux 系统 中 ,除了 使 用 上 述 的 四 个 函数 可 以 将 进程 从 运行 状态 切换 到 等 待 状态 之 外 ， 
进程 对 临界 数据 访问 也 可 能 会 使 其 进入 等 待 状态 。Linux 系统 使 用 互 斥 锁 Mutex, 信号灯 
Semaphore 和 目 旋 锁 三 种 方式 对 临界 数据 进行 保护 。 
互 奈 锁 Mutex 和 信号灯 Semaphore 机 制 也 是 采用 了 将 进程 加 人 等 待 队列 的 方法 。Mutex 
和 Semaphore 使 用 的 等 竺 队列, 其 Enrry 的 flags 参数 为 1, 因为 对 Mutex 和 Semaphore 资源 的 
访问 是 互 斥 的 ， 
请 读者 参考 . /include/asm-powerpc/semaphore.h 文件 获得 Mutex 和 Semaphore 的 详细 代 
码 。 这 部 分 源 代码 较为 简单 ,其 中 Mutex 是 Semaphore 的 一 个 特例 ,信和 号 量 为 1 的 Semaphore 
等 效 于 Mutex- 在 Linux 系统 中 使 用 图 数 up 和 down 对 Semaphore 中 的 信号 量 进行 操作 ,从 
而 实现 进程 的 状态 转换 ， 
提醒 读者 注意 ,在 Linux PowePC 中 , 自 旋 锁 的 实现 机 制 与 Mutex 和 Semaphore 完全 不 
同 。 自 旋 锁 的 详细 实现 见 4.1.1 节 。 
3. 进程 等 待 状态 到 就 绪 状 态 的 迁移 
当 进 程 被 激活 后 ,必须 首先 进入 就 绪 状 态 后 ,才能 被 schedule 函数 选中 获得 CPU 资源 。 
在 Linux 系统 中 ,进程 不 能 从 等 待 状态 直接 迁移 到 运行 状态 。Linux 系统 主要 使 用 以 下 宏 将 
9 宏 wake up。 该 宏 将 激活 所 有 在 等 待 队 列 中 flags 为 0 的 进程 ( 即 在 等 待 队 列 中 共享 等 
得 条 件 的 进程 ), 和 一 个 flags 状态 为 1(flag 状态 为 WQ_ FLAG_ EXCLUSIVE) 的 进程 
( 即 一 个 在 等 待 队 列 中 独占 等 待 条 件 的 进程 )。 在 Linux 系统 中 ,该 宏 的 使 用 频率 较 高 。 

@ 宏 wake_up_ nr。 该 宏 将 激活 所 有 flags 为 0 的 进程 ,和 多 个 flags 为 1 的 进程 。 在 实际 
应 用 中 ,很 少将 多 个 [lags 位 为 1 的 进程 激活 。 

9 宏 wake_ up _ all。 该 宏 将 唤醒 在 等 待 队 列 中 的 所 有 进程 . 

® 宏 wake up_ interruptible,wake up_ interruptible_nr 和 wake up_ interruptible all 
与 以 上 的 三 个 宏一 一 对 应 ,只 是 这 组 宏 只 能 唤醒 状态 为 TASK _ INTERRUPTIBLE 的 
进程 ,而 以 上 的 三 个 宏 可 以 唤醒 状态 为 TASK _UNINTERRUPTIBLE 和 TASK _IN- 
TERRUPTIBLE 的 进程 。 
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在 Linux 系统 中 ,将 进程 唤醒 的 宏 需 要 与 使 进程 进入 等 待 状态 的 宏 ( 如 wait _ event) 成 对 
使 用 。 这 些 宏 的 源 代码 在 . /includeAinux /wait,h 文件 中 ,如 下 所 示 ， 


# define wake up(x) \ 
_ wake_ up(x, TASK _ UNINTERRUPTIBLE | TASK _ INTERRUPTIBLE, 1, NULL) 
#define wake_ up_ nr(x, nr) \ 
_ wake_ up(x, TASK _ UNINTERRUPTIBLE | TASK _ INTERRUPTIBLE, nr, NULL.) 
并 define wake up _ all(x) VY 
_ wake_ up(x, TASK _ UNINTERRUPTIBLE | TASK INTERRUPTIBLE, 0, NULL) 
# define wake up interruptible(x) \ 
_ wake_ up(x, TASK INTERRUPTIBLE, 1, NULL) 
# define wake_ up _ interruptible_ nr(x, nr) \ 
_ wake_ up(x, TASK INTERRUPTIBLE, nr, NULL) 
# define wake _ up _ interruptible_ all(x) \ 
_ wake_ uplx. TASK INTERRUPTIBLE, 0, NULL) 
并 define wake _ up _ locked(x) % 
_ wake_ up_ locked((x), TASK_ UNINTERRUPTIBLE | TASK _ INTERRUPTIBLE) 
# define wake_ up _ interruptible_ sync(x) 和 
_wake_up_ sync((x),TASK INTERRUPTIBLE, 1) 
在 这 些 宏 中 , 宏 wake _ up 和 wake_ up _ interruptible 最 为 第 用 。 宏 wake_ up _ interrupt- 
ible 和 wake _ up 的 区 别 在 于 调用 _wake _ up 函数 时 传递 的 参数 不 同 。 
宏 wake_up 将 TASK_UNINTERRUPTIBLE | TASK _ INTERRUPTIBLE 的 值 传递 给 
_wake up 国 数 的 mode 参数 ,而 宏 wake up interruptible 将 TASK INTERRUPTIBLE 的 
值 传递 给 _wake _ up 函数 。_wake _ up 函数 的 源 代码 在 . /kernel/sched.c 文件 中 : 


void fastcall wake up(wait queue_ head +t *q,; unsigned int mode, int nr_ exclusive, void * key) 
| 

unsigned long flags; 

spin_ lock irgsave(l &q->lock, flags); 

_ wake_ up _ common(g, mode, nr_ exclusive, 0, key); 

spin_ unlock _ irgrestore( &gq- > lock, flags); 
| 


_ wake _ up 函数 共有 3 个 参数 。 

@ 参数 q 用 来 指 同等 等 队列 。 

se nr _ exclusive 用 来 存放 一 共 需 要 激活 多 少 个 独占 等 待 条 件 的 进程 。 

9 参数 key 没有 使 用 。 

该 函数 调用 _wake_ up _ common 函数 唤醒 相应 的 进程 ，wake _ up _ common 国 数 可 以 操 
作 进 程 的 等 待 队列 ,因此 需要 使 用 自 旋 锁 保 护 这 段 代 码 。_ wake _ up _ common 函数 调用 try _ 
to _ wake _ up 图 数 把 在 等 待 队 列 中 的 进程 激活 。 

在 Linux 系统 中 ,除了 宏 wake up 和 wake up_ interruptible 之 外 ,还 有 一 些 图 数 可 以 将 
处 于 等 每 状态 的 进程 激活 .如 5.3.1 节 提 到 的 wake _ up _ new _ task 图 数 可 以 将 新 进程 激活 ; 
wake _up _ process 图 数 可 以 将 指定 的 进程 激活 ;wake _up _ state 函数 可 以 将 处 于 指定 状态 的 
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进程 激活 。 这 些 函 数 最 终 会 调用 tr _to_wake _ up 函数 将 进程 激活 ,如 图 5-7 所 示 。 


_Wake up common 


wake_up_interrupruible 













autoremove_ wake function 


tr to wake up 


5-7 ”wake _ up 类 函数 的 调用 关系 


在 Linux 系统 中 , 绝 大 多 数 wake _ up 类 函数 最 终 调用 try _ wake _ up 函数 唤醒 在 等 待 队 
列 中 的 进程 ,该 函数 的 源 代码 在 . /kernel/sched.c 文件 中 。 
static int try_ to_ wake_ up(struct task _ struct * p, unsigned int state, int sync) 
| 
ty _ to _ wake _ up 图 数 一 共 有 3 个 参数 。 该 函数 的 主要 作用 是 激活 在 等 待 队列 中 状态 
与 state 参数 相同 的 进程 。 
e 参数 p 指 回 即将 从 等 待 队列 中 激活 进程 的 进程 描述 符 。 
9 参数 state 存放 try to _wake _ up 函数 的 访问 标示 。 
e 参数 sync 确定 当前 这 次 激活 操作 是 否 为 同步 方式 ， 





wake up state 


rq = task_rq_ lock(p, &flags); 
old_ state = p->state; 
让 (1 (old state & state)) 

goto out; 


这 段 曙 效 站 和 完 使 用 task _ rq _ lock 函数 获得 进程 p 所 属 的 进程 运行 队列 rq, 进程 运行 队列 
的 详细 描述 见 下 文 。 在 Linux 系统 中 ,将 等 待 进程 激活 ,等 效 于 将 进程 从 等 待 队列 中 搬移 到 进 
程 的 运行 队列 。 

如 有 果 进 程 p 的 state 参数 与 by _ to_ wake _ up 函数 的 state 参数 不 相等 则 跳 转 到 out 处 退出 
函数 的 执行 。 这 段 程序 使 用 了 大 段 的 源 代码 对 Linux SMP 进行 处 理 , 本 书 不 再 介绍 这 段 代码 。 


i (old_ state = = TASK _UNINTERRUPTIBLE) | 
rq->nr_ uninterruptible—; 
p->sleep_ type = SLEEP NONINTERACTIVE; 
| else 
if (old _ state &@ TASK_ NONINTERACTIVE.) 
p>sleep_ type = SLEEP_ NONINTERACTIVE:; 
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这 段 程序 的 主要 作用 是 识别 一 个 进程 的 交互 性 - 在 Linux 系统 中 , 交互 式 进程 不 是 创建 
时 确立 的 ,而 是 在 进程 运行 过 程 中 动态 确立 的 。 当 进程 被 重新 激活 时 ,将 有 机 会 调整 进程 的 交 
互 性 。 

这 段 程序 首先 分 析 进 程 的 状态 ,如 果 进 程 从 TASK _UNINTERRUPTIBLE 状态 中 进入 
就 绪 状 态 . 则 将 运行 队列 的 nr _ uninterruptible 参数 减 1, 然后 将 进程 的 睡眠 状态 赋值 为 
SLEEP_ NONINTERACTIVE。 如 果 进 程 的 TASK _NONINTERACTIVE 状态 位 有 效 ,进程 
的 睡眠 状态 被 赋值 为 SLEEP_ NONINTERACTIVE。 nr _ uninterruptible 参数 与 进程 的 睡眠 
状态 将 在 下 文 详细 介绍 。 


activate _ task(p, ry, cpu = = this cpu); 


out _ running: 
P->srare = TASK _ RUNNING:; 
ut: 
task _ rq_ unlock(rq, 及 flags); 
Tetura success; 


| 


最 后 .try _ to_ wake _ up 函数 使 用 active _ task 函数 将 进程 加 入 到 运行 队列 中 ,将 进程 的 
状态 改写 为 TASK _RUNNING ,激活 该 进程 。 


5.4 进程 的 调度 


上 文 介绍 了 图 5-6 中 ,一 个 进程 从 创建 到 就 绪 , 从 运行 到 结束 ,从 进程 运行 到 等 待 ,从 等 待 
到 运行 ,一 共 四 种 状态 的 迁移 。 本 节 将 详细 介绍 进程 从 就 绪 到 运行 .从 运行 到 就 绪 的 状态 迁 
移 , 即 进程 的 调度 。 

Linux 系统 支持 多 任务 与 多 处 理 器 ,其 中 多 个 进程 可 以 在 多 个 CPU 中 并 发 执行 。 在 单 处 
理 豆 中 ,每 一 个 进程 在 同一 时 刻 内 只 有 一 个 可 以 获得 CPU 资源 ，Linux 系统 的 调度 程序 根据 
进程 的 特点 在 合适 的 时 机 选择 最 合适 的 进程 获得 CPU 资源 。 为 支持 多 个 进程 ,Linux 将 CPU 
的 时 间 划 分 为 春 干 个 时 间 片 ,多 个 进程 可 以 轮流 使 用 这 些 时 间 片 ,从 而 多 个 进程 可 以 共享 一 个 
或 多 个 CPU 资源。 

在 Linux 系统 中 ,进程 调度 是 一 个 关键 模块 。 进 程 调度 的 速度 也 是 衡量 操作 系统 性 能 的 
重要 指标 。 在 Linux 系统 的 进程 调度 中 ,需要 在 功能 与 性 能 之 间 进 行 权 衡 ,进程 调度 对 操作 系 
统 的 总 体 设计 有 着 决定 性 影响 。 

Linux 系统 是 一 个 分 时 操作 系统 ,基于 时 间 片 进行 调度 。 一 个 时 间 片 的 大 小 由 每 秒 钟 
CPU 执行 系统 时 钟 异 常 的 频率 决定 ,在 两 个 系统 时 钟 异 常 之 间 的 时 间 被 称 作 一 个 时 间 片 。 系 
统 时 钟 异常 的 频率 越 高 ,Linux 系统 的 响应 速度 越 快 ,但 是 CPU 用 于 处 理 时 钟 中 断 的 时 间 就 
越 多 ,用 于 处 理 进 程 执 行 的 时 间 越 短 。 操 作 系 统 可 以 根据 处 理 器 及 实际 应 用 的 需求 ,合理 设置 
系统 时 钟 异常 的 频率 。 在 Linux 系统 中 , 宏 HZ 描述 系统 时 钟 异常 的 频率 ,读者 可 以 参考 
5.1.2 节 了 解 HZ 的 详细 含义 。 

Linux 系统 中 的 进程 分 为 实时 进程 与 普通 进程 ,这 两 类 进程 采用 不 同 的 调度 策略 。 而 普通 进 
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程 又 分 为 交互 式 进程 , 非 交互 式 进程 与 批 处 理 进程 ,这 几 种 进程 也 采用 不 同 的 调度 策略 。 这 些 不 
同类 型 的 进程 给 Linux 的 进程 调度 子 系统 设计 增添 了 一 定 难 度 。Linux 系统 的 进程 调度 需要 对 
交互 式 进程 . 批 处 理 进 程 .普通 进程 和 实时 进程 采用 不 同 的 策略 以 保证 这 些 进程 的 特殊 需要 。 
9 交互 式 进 程 一 般 与 用 户 的 输入 密切 相关 ,如 vi 进程 和 shell 进程 。 这 些 进 程 因为 等 待 用 
户 的 输入 而 处 于 休眠 状态 。 但 是 Linux 系统 发 现 有 用 户 输入 信息 时 ,必须 保证 这 类 进 
程 能 够 及 时 响应 。 

e 批 处 理 进 程 对 啊 应 速度 没有 要 求 .但 是 这 类 进程 需要 获得 较 高 的 "平均 执行 时 间 ”。 

9 实时 进程 需要 及 时 处理 所 获 得 信息 。 在 Linux 系统 中 ,这 类 进程 需要 最 高 的 响应 速度 。 
Linux 必须 保证 实时 进程 在 规定 的 时 间 内 处 理 完毕 相应 的 信息 . 

在 合理 处 理 这 几 类 的 进程 的 同时 ,进程 调度 必须 保证 CPU 的 时 间 相 对 公平 地 分 配给 所 有 
的 进程 。 在 理论 界 , 进 程 调度 的 研究 一 直 是 操作 系统 的 重 中 之 重 。Linux 2.6 中 采用 了 O(1) 
调度 策略 调度 系统 中 所 有 的 进程 。 

Linux 系统 为 实现 其 调度 策略 设置 了 许多 数据 结构 ,其 中 最 重要 的 数据 结构 是 进程 运行 
队列 。 进 程 运 行 队 列 中 存放 了 许多 与 进程 调度 有 关 的 数据 结构 。Linux 系统 中 ,进程 运行 队 
列 用 来 存放 所 有 处 于 就 绪 状 态 的 进程 。 与 Linux 进程 调度 有 关 的 源 代 码 在 . /kernel/sched.c 
和 .Akernel/sched.bh 文件 中 。 


5.4.1 进程 运行 队列 


Linux 系统 为 每 一 个 处 理 右 提供 一 条 进程 运行 队列 (RQ,Run Queue)-。 在 单 处 理 右 系统 
中 .进程 运行 队列 的 个 数 为 1; 在 多 处 理 器 系统 中 ,如 SMP 系统 ,进程 运行 队列 RQ 的 个 数 与 
SMP 处 理 颖 中 CPU 的 个 数 相 同 。Linux 系统 使 用 数据 结构 rq 描述 进程 运行 队列 。 为 简单 起 
见 ,下 文 使 用 RQ 称呼 Linux 系统 中 的 进程 运行 队列 ， 

RQ 中 包含 了 许多 与 Linux SMP 有 关 的 参数 如 cpu _ load,active _ balance 等 ,Linux 系统 
使 用 这 些 参数 实现 进程 在 不 同 CPU 之 间 的 迁移 , 即 一 个 进程 可 以 根据 CPU 的 负载 度 选择 在 
只 一 个 CPU 上 执行 ,也 可 以 根据 当前 进程 的 亲 和 属 性 决定 当前 进程 优先 使 用 哪个 CPU。 用 
户 可 以 使 用 sys _ sched _ setaffinity 系统 调用 确定 进程 的 亲 和 属 性 。 

在 Linux SMP 系统 中 ,进程 调度 的 主要 设计 目标 是 在 不 失调 度 算法 公平 与 高 效 的 基础 上 退 
求 负 载 均衡 。 对 于 SMP 系统 ,负载 均衡 也 意味 着 高 效 。 在 本 书 中 将 不 会 对 Linux SMP 进行 过 多 
讨论 ，Linux SMP 系统 基于 单 CPU 的 Linux 系统 。 如 果 恋 者 真正 掌握 了 基于 单 CPU 的 Linux 系 
统 和 一 个 可 以 用 来 实现 SMP 构架 的 处 理 器 ,那么 理解 Linux SMP 系统 是 水 到 渠 成 的 。 

1. RQ 中 的 重要 参数 

Linux 系统 使 用 rq 结构 描述 进行 运行 队列 ,该 结构 的 定义 在 .kernel/sched.c 文件 中 。 
在 rd 结构 中 除了 与 Linux SMP 有 关 的 参数 外 ,还 有 一 些 其 他 的 重要 参数 。 


struct rq | 
spinlock _ +t lock:; 
unsigned long nr _ running; 
unsigned long raw _ weighted _ load; 
unsigned long long nr _ switches; 
unsigned long nr _ uninterruptible; 
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unsigned long expired _ timestamp; 
unsigned long long most _ recent _ timestamp:; 
struct task struct #* curr, *# idle; 
unsigned long next balance; 
struct mm _ struct * prev_ mm; 
struct prio_ array # active, * expired, arrays| 2|; 
int best _ expired _ prio; 
atomic Tt nr iowait; 
| 

9 lock 参数 。RQ 属于 Linux 系统 的 临界 数据 。 当 一 个 进程 访问 RQ 访 时 ,需要 使 用 自 旋 
饥 对 RQ 进行 保护 。 

e nr _ running 参数 ,该 参数 记录 在 RQ 中 处 于 TASK _RUNNING 状态 的 进程 个 数 . 

9 raw _ weighted _load。 该 参数 表示 当前 RQ 的 负载 度 ,等 于 在 RQ 中 的 所 有 进程 的 负载 
度 之 和 。 进程 描述 符 的 load _weight 参数 用 来 描述 每 个 进程 的 负载 度 。 

@ DT switches 记录 处 理 硕 一 共 进行 了 和 多少 次 进程 切换 操作 ， 

9 nr _ uninterruptible 记录 在 RQ 中 一 共有 多 少 个 处 于 TASK _UNINTERRUPTIBLE 状 
态 的 进程 ， 

@ expired _ timestamp。 该 参数 存放 在 RQ 中 expired 队列 的 等 竺 时间 , 当 RQ 的 expired 
队列 与 active 队列 进行 交换 时 ,该 参数 被 初始 化 为 0. 在 scheduler _ tick 函数 中 ,该 参 
数 被 重新 进行 赋值 . 

@ most recent _ timestamp.: 该 参数 记载 当前 RQ 最 近 一 次 发 生 调 度 的 时 间 ,或 者 最 近 一 
次 产生 系统 时 钟 异 第 的 时 间 . 在 Linux 系统 进行 进程 切换 或 者 系统 时 钟 异常 时 ,该 参 
数 和 被 update _cpu _clock 困 数 赋值 

@ curr,idle， 这 两 个 参数 分 别 保 存 当 前 CPU 正在 运行 的 current 进程 和 idle 进程 的 描述 符 。 

@ prev _ mm。 当 发 生 进 程 调度 时 ,被 切换 进程 的 active _ mm 参数 保存 在 RQ 的 prev _ 
mm 参数 中 ， 

@ best expired _ prio。 该 参数 存放 在 RQ 的 expired 队列 中 优先 级 最 高 的 进程 描述 符 的 
prio 参数 。 

9 nr _ iowait 参数 。 该 参数 保存 在 RQ 中 正在 等 等 磁 盘 1/O 操作 结束 的 进程 数量 ， 

在 rq 结构 中 ,核心 参数 是 active,expired 与 array| 21。 其 中 active 与 expired 参数 是 prio _ 

array 类 型 的 指针 ,array 是 prio _ array 类 型 的 数组 。prio _ array 数据 结构 的 定义 如 下 ，} 


struct prio_ array | 
unsigned int nr_ active; 
DECLARE BITMAP(bitmap, MAX PRIO+1) /* include 1 bit for delimiter * / 
struct list head queuel MAX PRIO|; 

| 


#define DECLARE _BITMAP(name,bits) \ 
unsigned long name! BITS_ TO_ LONGS(bits)] 
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其 参数 详解 如 下 : 

.@ nr _ active 参数 。 该 参数 记录 prio _ array 中 的 进程 数量 。 

@ bitmap 参数 。 该 参数 表示 在 当前 prio _ array 中 有 哪些 queue 是 有 效 的 。bitmap 参数 由 
5 个 无 符号 长 整 型 组 成 。 在 Linux 系统 中 ,MAX _ PRIO 的 值 为 140 ,因此 在 bitmap 数 
组 的 160 位 中 ,只 有 前 140 位 有 效 并 与 参数 queue 一 一 对 应 。 当 bitmap 的 第 一 位 为 1 
时 表示 queuelL0] 中 具有 有 效 数据 , 当 bitmap 的 第 二 位 为 1 时 表示 queue[1] 中 具有 有 效 
数据 , 依 此 类 推 。 

@ queue。 该 参数 指 癌 进程 描述 符 链 表 。 其 中 queue [0」 用 来 保存 所 有 优先 权 为 0 的 进程 
描述 符 链 表 , 而 queue [1] 用 来 保存 所 有 优先 权 为 1 的 进程 描述 符 链 表 。 

在 进程 运行 队列 中 ,active,expired 与 arrays[2] 参 数 的 关系 如 图 5-8 所 示 。 


P| pri0=0 
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区 
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/ arrays[1] P| | prio=1 
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图 5-8 ”Linux 进程 运行 队列 的 结构 图 


在 Linux 系统 初始 化 时 ,active 和 expired 指针 分 别 指向 arrays[0] 和 arrays[1]。 在 Linux 
系统 中 ,active 指向 当前 活跃 进程 对 列 , 而 expired 指向 将 时 间 片 使 用 完毕 的 进程 对 列 。 在 Lin- 
ux 系统 中 ,调度 程序 通过 操作 进程 运行 队列 ,实现 进程 调度 。 

在 Linux 系统 中 ，active 队列 中 优先 权 最 高 的 进程 将 获得 CPU 资源 运行 。 当 进程 将 其 时 
间 片 使 用 完毕 后 ,该 进程 描述 符 将 从 active 队列 中 移 到 expired 队列 中 。 当 active 队列 中 没有 
进程 描述 符 时 ,active 指针 将 与 expired 指针 互 换 。 

2. 对 RQ 进行 操作 的 沙 数 

Linux 系统 使 用 dequeue _ task,enqueue_task ,enqueue _ task _ head 和 requeue _ task 图 数 
对 RQ 进行 操作 。 这 4 个 函数 都 有 两 个 输入 参数 ,分 别 是 p 指针 和 arrary 指针 ,指针 p 指 癌 进 
程 描 述 符 ,array 指针 指向 RQ 一 active 队列 或 者 RQ->exipred 队列 ,这 4 个 函数 的 简单 描述 
如 下 : 

@ dequeue _ task 函数 将 p 指向 的 进程 描述 符 从 array 队列 中 摘除 。 

@ enqueue _ task 了 因数 将 p 指向 的 进程 描述 符 加 入 到 array 队列 的 尾部 。 

@ enqueue _ task _ head 函数 将 p 指向 的 进程 描述 符 加 入 到 array 队列 的 头 部 。 

@ requeue _ task 因数 将 p 指向 的 进程 描述 符 从 array 队列 中 摘除 ,然后 再 加 入 到 array 队 

列 的 尾部 。 
其 中 ,enqueue _ task 函数 的 源 代码 如 下 所 示 : 
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static void enqueue _ task(struct task _ struct * p, struct prio_ array * array) 
| 
sched _ info_ queued(p); 
list_add_ tail(&p- >rnm _ list, array- >queue + p->prio); 
_ set_ bit(p->prio. array- >bitmap); 
array- >nr_ active++ ; 
->aray = array; 
| 
engueue _ task 函数 将 进程 加 入 到 array 队列 的 尾部 ,然后 更 新 array 一 之 bitmap 和 和 nr _ ac- 
tive 参数 ,最 后 将 进程 描述 符 的 array 参数 指向 RQ 的 active 指针 。enqueue _ task _ head 图 数 
的 实现 机 制 与 enqueue _ task 图 数 类 似 。 而 dequeue _ task 函数 是 enqueue _ task 函数 的 逆 过 
程 ,而 其 源 代码 如 下 所 示 : 


static void dequeue _ task( struct task _ struct *p, struct prio_ array * array) 


| 
1 


array- >nr_ active—; 

list_ del(&p->rmn _ list); 

证 (list_ empty(array- >queye + p->prio)) 

_ Clear _ bit(p->prio, array- > bitmap); 
| 
dequeue _ task 函数 首先 将 RQ 中 的 nr _ active 参数 减 1 ,然后 将 进程 从 RQ 中 删除 。 如 果 

在 RQ 中 ,不 存在 优先 权 和 当前 进程 优先 权 相 同 的 进程 描述 符 链表 , 则 将 array 一 >bitmap 中 的 
对 应 位 清除 。 


5.4.2 系统 时 钟 异 前 


在 Linux 系统 中 ,一 个 进程 只 能 以 时 间 片 为 单位 使 用 CPU, 当 这 个 时 间 卢 耗 尽 后 ,系统 将 
剥夺 该 进程 的 CPU 使 用 权 , 把 CPU 分 配给 其 他 的 进程 使 用 ,如 果 在 系统 中 没有 比 当 前 进程 优 
先 权 更 高 的 进程 ,该 进程 将 重新 获得 CPU 资源 ,继续 执行 。 在 Linux 系统 中 ,许多 与 进程 调度 
有 关 的 系统 参数 随 进 程 运行 时 间 的 长 短 而 发 生变 化 ,这 些 变化 的 系统 参数 协调 看 Linux 系统 
的 正常 运转 。 

Linux 系统 使 用 系统 时 钟 异常 将 CPU 的 运行 时 间 分 解 成 为 一 个 个 时 间 片 。 系 统 时 钟 异 
常 处 理 程 序 将 调整 当前 进程 与 调度 有 关 的 参数 ,从 而 激活 整个 Linux 系统 的 运转 。 系 统 时 钟 
异常 程序 在 Linux 中 处 于 核心 位 置 , 因 此 系统 时 钟 异常 也 被 称 为 Linux 系统 的 “心跳 "。 

PowerPC 处 理 器 提供 一 个 32 位 的 计数 器 DEC(Decrementer Register) 文 持 系统 时 钟 异 凋 。 
Linux PowerPC 在 初始 化 时 为 DEC 寄存 器 赋 子 初 值 .之 后 DEC 寄存 器 将 自 减 。 当 DEC 的 值 
从 1 到 0 进行 跳 变 时 产生 Decrementer 异常 .在 Linux PowerPC 中 ,该 异常 被 用 作 系 统 时 钟 异 
常 。 系 统 时 钟 异 常 处 理 程 序 还 会 重新 对 DEC 寄存 器 赋值 ,从 而 Linux PowerPC 周而复始 地 产 
生 系 统 时 钟 异 稼 。 

基于 E500 内 核 的 Linux PowerPC 使 用 timer _ interrupt 图 数 处 理 Decrementer 异 贡 ,并 在 
timer _interrupt 函数 中 调用 scheduler _ tick 函数 进一步 处 理 系 统 时 钟 异 第 . 
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1. timer _ interrupt 函数 


Decrementer 异常 在 ./arch/powerpc/kernel/head ”booke.h 文件 中 初始 化 , 其 源 代码 
如 下 : 


i# define DECREMENTER _ EXCEPTION 
START EXCEPTION(Decrementer) 
NORMAL _ EXCEPTION _ PROLOG:; 
lis 7 只,TSR DIS@h; 7# Setup the DEC interrupt mask # 7/ 
mtspr SPRN TSR,IO /x Clear the DEC interrupt */ 
addi r3,rl ,STACK FRAME OVERHEAD.; 
EXC XXFER LITE(Qx0900, timer_ interrupt) 


通过 以 上 代码 发 现 ,PowerPC 处 理 器 发 生 Decrementer 异常 时 .将 调用 timer interrupt 函 


数 ，timer _ interrupt 函数 的 源 代码 在 . /arch/powerpc/kernel/time.c 文件 中 。 该 函数 的 源 代 
码 如 下 : 


oO a 


void timer _ interrupt(struct pt _ regs # regs) 
| 
struct pi _ regs *old _ regs; 
int next _ dec; 
mt cpu = smp_ processor _ id(); 
unsigned long ticks; 
u64 th_ nexr _ jiffy; 
timer _ interrupt 图 数 只 有 一 个 输入 参数 regs, regs 参数 在 宏 EXC _XFER _ LITE 中 初始 
化 ,该 参数 保存 E500 内 核 的 系统 寄存 器 ,有 关 宏 EXC _XFER _ LITE 的 详细 说 明 请 参考 
6.4.2 在 timer _ interrupt 图 数 中 ,使 用 smp processor _id 函数 获得 当前 进程 使 用 的 CPU 
写 ,对 于 单 CPU 系统 ,该 值 为 0 


# ifde{ CONFIG _ PPC32 
if (atomic_ read(&ppe _n_ lost_ interrupts) | = 0) 
do_ IRQ(regs); 
# endif 


old _ regs = set_irq_ regs(regs); 
irq _ enter( ) ; 
这 段 程序 的 执行 顺序 如 下 : 
1) 在 进入 系统 时 钟 异常 程序 时 ,如 果 发 现 还 有 未 处 理 的 外 部 中 断 则 调用 do _IRQ 函数 处 
理 这 个 外 部 中 断 ,de__IRQ 函数 是 外 部 中 断 处 理 函 数 , 该 函数 将 在 第 6 章 详 细 介绍 
2) 使 用 set _ irq _ regs 函数 将 pt _ regs 结构 指针 存 人 Linux 系统 为 每 一 个 CPU 准备 的 
per _ cpu _ irq _ reg 结构 中 ,同时 将 之 前 存放 在 per _ cpu _ irg _ reg 结构 中 的 数据 备份 到 old _ 
regs 变量 中 。pt _ regs 结构 存放 PowerPC 处 理 器 中 的 系统 寄存 器 . 
3) 调用 irq _ enter 图 数 将 当前 进程 的 thread 一 > preempt count 参数 与 HARDIRQ 
OFFSET 相 加 ,表示 Linux 系统 已 经 在 中 断 处 理 程序 的 上 下 文中 运行 。 
160 


Linux SMP 需要 为 每 一 个 CPU 准备 一 套 per _ cpu 结构 ,并 使 用 宏 DEFINE _PER CPU 
定义 per _ cpu 结构 中 的 参数 ，timer _ interrupt 函数 使 用 per cpu _ irg _ reg 结构 的 主要 原因 
是 在 SMP 处 理 需 中 ,每 一 个 CPU 都 会 处 理 各 自 的 Decrementer 异常 ,并 会 调用 timer _ inter- 
rupt 图 数 。 因 此 在 此 函数 中 ,必须 使 用 per cpu _ irq _reg 结构 保存 来 自 不 同 CPU 的 系统 寄 
存 器 。 


profile_ tick(CPU PROFILING) ; 
calculate _ steal _ time( ); 
calculate _ steal _time 调整 在 timer _ interrupt 图 数 中 进程 的 运行 时 间 ,传统 的 做 法 是 将 在 
此 期 间 的 进程 的 运行 时 间 统 一 用 jiffy 来 计算 。 但 是 此 函数 的 运行 有 可 能 被 CPU 中 的 其 他 异 
党 所 中 断 。 
在 PowerPC 处 理 器 中 , Decrementer 异常 的 优先 权 最 低 , 因 此 别 的 异常 很 有 可 能 会 中 断 
timer _ interrupt 国 数 的 运行 ,从 而 导致 当前 进程 在 计算 运行 时 间 时 产生 旋 差 ， 
calculate _steal _time 函数 通过 读 取 PowerPC 处 理 器 中 的 TB 寄存 更 对 进程 的 运行 时 间 
进行 计算 ,从 而 可 以 消除 这 一 误差 .对 此 函数 有 兴趣 的 读者 可 以 参考 以 下 URL: 
http: //ozlabs.org/pipermail/linuxppc64-dev/2006-February /008169. html 


while {(ticks = tb_ticks_ since(per_cpu(last jiffy, cpu))) >= th_ticks_ per_ jiffy) | 
per_ cpul(last _ jiffy, cpu) + = tbh_ ticks_ per_ jiffy: 
随后 timer _ interrupt 函数 判断 从 上 一 -次 CPU 进入 该 函数 到 现在 为 止 ,所 使 用 的 时 间 是 
否 超 过 tb _ ticks _ per _jiffy。 如 果 超 过 .将 执行 while 循环 。 在 一 般 情况 下 该 while 循环 只 执 
行 一 次 .但 是 在 某 些 特殊 情况 下 ,如 在 一 段 时 间 内 外 部 中 断 异 常 频繁 ,Linux 系统 没有 机 会 进 
人 到 timer _ interrupt 国 数 ,此 时 while 循环 将 运行 多 次 . 
tb __ ticks _ per _ jiffy 变量 在 . /arch/powerpc/kernel/time.c 文件 中 定义 ,该 变量 用 来 表示 
在 一 个 Jiffy 中 有 多少 个 ticks。Linux PowerPC 在 初始 化 时 将 为 此 变量 赋值 。 该 变量 的 计算 
公式 如 下 : 
th_ticks_ per_ jiffy = ppc_ tb_ freqg / HZ; 


ppc _ tb _ freg 表示 在 PowerPC 处 理 器 中 TB 寄存 咒 使 用 的 时 钟 频率 。 在 基于 E500 内 核 
的 PowerPC 处 理 器 中 ,该 频率 为 CPU 主 频 的 1/ 必 ,当然 用 户 也 可 以 为 TB 提供 外 部 时 钟 。 对 
于 一 个 1GHz 主 频 的 PowerPC 处 理 器 ,如 果 HZ 的 值 为 1000 且 没 有 为 TB 提供 外 部 时 钟 , 则 世 
_ticks per _jiffy 为 125000, 即 在 1 个 Jiffy 中 含有 125000 个 ticks。 在 上 述 这 段 程序 使 用 也 _ 
ticks _ per _jiffy 变量 更 新 per_ cpu last _jiffy 变量 后 ,继续 执行 以 下 程序 : 


if {1 cpu_ is _offline(cpu)) 
account _ process _ timel( regs); 
加 果 当 前 CPU 没有 进入 offline 状态 , 则 调用 account process _ time 函数 。 从 Linux 系统 
将 一 个 CPU 标记 为 offline 状态 到 这 个 CPU 真正 进入 offline 状态 , 震 要 一 段 时 间 ,在 这 段 时 间 
里 CPU 仍然 有 可 能 收 到 Decrementer 异常 时 ,并 调用 timer _ interrupt 图 数 ,在 这 种 情况 下 ， 
time interrupt 图 数 将 不 调用 account process time 图 数 。 
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在 account _ process _time 函数 中 将 调用 scheduler _tick 函数 ,scheduler _tick 函数 是 系统 
时 钟 异 第 处理 的 核心 。 


if (cpu ! = boot _cpuid) 
continue; 
write _ seqlock( @&xtime _ lock); 
tb next jiffy = tb_ last jiffy + th_ ticks per_ jiffy; 
if (per_ cpul(last _ jiffy, cpu) >= th_ next jiffy) | 
tb last jiffy = th_ next _ jiffy; 
do _ timer(1); 
timer _ recalc _offset(t last _ jiffy); 
timer _ check __ rtc{ ); 


write sequnlock( 态 xtime lock); 
| /¥ end while */ 
如 未 执行 timer _ interrupt 图 数 的 CPU 不 是 Boot CPU 则 返回 while 循环 的 开始 处 ,判断 
征 否 应 该 退出 while 循环 , 否则 Boot CPU 将 作 一 些 处 理 后 再 返回 到 while 循环 - 在 Linux 
SMP 中 ,共有 两 类 CPU ,分 别 是 BSP( Boot Strap Processor) 和 AP(Application Processor)。 其 中 
BSP 用 来 引导 Linux SMP 系统 ,而 AP 用 作 运 算 。Linux SMP 系统 尽管 追求 完全 的 负载 均衡 ， 
但 是 Boot CPU 还 是 不 可 避免 地 比 其 他 CPU 多 做 一 部 分 工作 


next_dec = tb_ ticks per _ jiffy - ticks; 
set dec(next dec); 
irq exit( ); 
set _irq _ regs(old _ regs):; 
| /¥ End timer interrupt * / 
这 上段 程序 自 先 计算 next _dec, 然 后 将 该 值 重新 写 人 PowerPC 处 理 器 中 的 DEC 寄存 器 中 ， 
以 确定 下 一 次 Decrementer 异常 来 临 的 时 间 。 在 timer _ interrupt 函数 中 ,while 循环 体 中 的 程 
序 运行 时 间 并 不 固定 ,有 时 运行 时 间 较 长 ,有 时 运行 时 间 较 短 ,因此 timer _ interrupt 函数 每 次 
都 震 要 重新 计算 next _ dec, 以 校对 时 间 间 隔 。 在 timer _ interrupt 函数 的 最 后 ,将 调用 irq ex- 
it 图 数 退 出 中 断 状 态 ,调用 set _ irg _ regs 函数 恢复 per cpu_ irq _reg 结构 ， 
2. scheduler _ tick 函数 
scheduler _ tick 函数 在 timer _interrupt 函数 中 调用 ,该 函数 是 系统 时 钟 异常 处 理 程序 的 
核心 。scheduler _ tick 函数 对 当前 正在 执行 进程 的 许多 参数 进行 调整 ,并 决定 当前 进程 是 否 应 
该 被 切换 。 


void scheduler _ tick(wvoid) 
| 
unsigned long long now = sched _ clock(); 
struct task _ struct *p = current; 
int cpu = smp_ processor id(); 
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struct rq * rq = cpu_rqkcpu) 
update_ cpu_ clock(p, rg, now); 
if (p = = rq->idle) 

Vs Task on the idle queue */ 

wake priority _ sleeper(rg); 
else 

task _ running _ tick(rg, p):; 


| A/¥* End scheduler tick */ 


scheduler _tick 函数 没有 输入 参数 ,也 没有 返回 值 。 该 函数 的 执行 流程 如 下 : 

1) 使 用 sched _ clock 函数 获得 当前 系统 时 间 now, 当前 进程 描述 符 的 current 指针 和 当前 
进程 使 用 的 CPU , 获得 当前 进程 所 在 的 进程 运行 队列 RQ。 

2) scheduler _tick 首先 调用 update cpu _ dlock 函数 同步 当前 进程 的 sched _ time 参数 ， 
然后 将 last _ run 参数 和 RQ 的 most _ recent _ timestamp 同步 。Linux 系统 在 scheduler _ tick 
溺 数 中 调用 update _ cpu _ clock 函数 的 作用 是 可 以 更 加 精确 地 计算 出 当前 进程 使 用 的 CPU 时 
间 。 这 里 的 处 理 方法 是 与 Linux 2.6.19 内 核 相 对 而 言 的 。 

就 悉 Linux 2.6.19 内 核 的 读者 ,可 以 发 现 Linux 2.6.20 内 核 使 用 most recent _ times- 
tamp 参数 替代 了 RQ 中 的 timestamp _ last _ tick 参数 。 由 于 许多 读者 并 不 熟悉 Linux 2.6.19 
内 核 进程 调度 的 这 段 源 代码 ,本 书 不 再 详细 说 明 采 用 这 种 方法 的 优点 。 对 此 有 兴趣 的 读者 可 
以 浏览 以 下 URL: 

http: A//Akml,org/Akml/2006/A11/A177305 

3) 如 果 当 前 进程 为 idle 进程 , 则 调用 wake _ priority _ sleeper 函数 。 如 果 当 前 处 理 器 不 文 
持 SMT 结构 ,wake _ priority _ sleeper 函数 将 为 一 个 空 函 数 。 目 前 Freescale 的 PowerPC 处 理 
储 孝 没有 支持 SMT 结构 。 

如 果 当 前 处 理 器 支持 SMT 结构 ,即便 当前 进程 为 idle 进程 也 不 一 定 表 示 当 前 CPU 中 没 
有 其 他 活跃 的 进程 ,因为 在 SMT 处 理 器 中 可 能 还 有 一 些 在 硬件 上 睡 虑 的 进程 。 因 此 wake _ 
priority _ sleeper 国 数 震 要 检查 在 RQ 中 活跃 的 进程 数目 , 即 rq>nr _ running 是 否 为 0。 当 RQ 
中 活 哮 进程 的 数目 不 为 0 表示 当前 SMT 处 理 器 中 还 有 在 硬件 上 睡眠 的 进程 。 此 时 使 用 
resched _task 函数 将 该 进程 的 flags 参数 设置 为 TIF_ NEED_ RESCHED, 然 后 退出 scheduler 
_ tick 图 数 。 

如 果 当 前 进程 不 是 idle 进程 ,scheduler _ tick 函数 调用 task _ running _ tick 函数 继续 进行 
处 理 。task _running _ tick 国 数 返回 后 , scheduler _ tick 函数 也 将 执行 完毕 。task _ running _ 
tick 函数 一 共有 两 个 参数 ,参数 rq 指向 当前 进程 运行 队列 RQ, 而 参数 p 指 癌 当前 进程 使 用 的 
描述 符 current。 

3, task _running _tick 函数 

task ”running _tick 函数 在 scheduler _ tick 函数 中 调用 . 该 函数 一 共有 两 个 参数 rg 和 p， 
rq 指向 进程 运行 队列 ,而 p 指向 当前 进程 的 描述 得, 其 源 代码 如 下 : 
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/A¥ task_running _ tick 函数 源 代码 片段 1 */ 
static void task running _ tick(struct rq # rq, struct task _ struct *p) 
| 
i (p->array 1 = rq->active) | 
/xx Task has expired but was not scheduled yet * / 
set_ tsk need resched{p); 


returns 


task _ running _ tick 图 数 首 匈 进 行人 参数 检查 ,如果 当 前 进程 不 在 RQ 的 active 队列 中 , 则 
使 用 set _tsk _ need _ resched 函数 将 当前 进程 状态 改变 为 TIF_NEED_ RESCHED 以 便 重 新 
进程 调度 ,并 退出 task _ running _ tick 函数 。Linux 系统 中 很 少 出 现 这 种 情况 。 


/# task running _ tick 函数 源 代码 片段 2 */ 
spin _ lock( &rq- > lock); 
if (rt_ task(p)) | 
/A 
* RR tasks need a special form of timeslice management. 
¥* FIFO tasks have no timeslices. 
¥/ 
让 ((p->policy == SCHED_ RR) && | -p>time_ slice) | 
P->time_ slice = task timeslice(p); 
p->first_ time_ slice = 0:; 
set_ tsk need _ resched(p); 


/7# putit at the end of the gueue: */ 


requeue _ task(p, rq- > active), 
| 


goto out _ unlock; 


scheduler _ tick 图 数 将 对 临界 资源 RQ 进行 操作 ,因此 在 本 段 程 序 使 用 spin lock 函数 将 
RQ 加 锁 ， 

如 果 当 前 进程 是 实时 进程 ,scheduler _ timer 函数 需要 做 一 些 专门 的 处 理 ， 在 Linux 系统 
中 ,实时 进程 可 以 采用 两 种 策略 进行 调度 ,SCHED_ RR 和 SCHED_ FIFO，SCHED RR 策 
虞 使 用 基于 优先 权 的 时 间 片 轮转 策略 ,优先 级 相同 的 进程 轮流 使 用 CPU 资源 ;SCHED _ FIFO 
环 上 略 采 用 先 来 先 服务 的 方法 ,只 有 优先 权 较 高 的 进程 执行 完毕 后 .其 他 优先 权 较 低 的 进程 和 与 
当前 优先 权 相 同 的 实时 进程 才 可 以 执行 。 

如 采 当 前 实时 进程 采用 SCHED _ FIFO 策略 , 则 直接 跳 转 到 out _unlock 标号 处 ,完成 
task _ running _ tick 图 数 的 执行 。 采 用 SCHED _ FIFO 策略 的 实时 进程 ,其 time slice 参数 没 
有 意义 ,该 类 进程 只 有 执行 完毕 或 者 有 更 高 优先 权 的 进程 时 , 才 会 让 出 CPU 资源 ， 

如 条 当前 实时 进程 采用 SCHED _RR 调度 策略 , 则 进一步 判断 其 时 间 片 time _ slice 是 否 
已 经 耗 尽 。 如 果 time _slice 没有 耗 尽 则 直接 跳 转 到 out unlock 标号 处 ,完成 scheduler tick 
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畏 数 的 执行 。 如 果 time _slice 已 经 耗 尽 , 则 按 以 下 步 又 进行 处 理 . 

1) 使 用 task _ timeslice 图 数 重新 分 配 当 前 进程 的 时 间 片 time _ slice, 该 函数 的 详细 说 明 见 
.1.2 节 。 

2) 将 当前 进程 的 first _ time _ slice 参数 置 为 0 

3) 使 用 set _ tsk _ need _ resched 函数 将 此 进程 的 flags 状态 设置 为 TIF _ NEED 
RESCHED。 当 系统 时 钟 异 党 返回 时 ,该 进程 将 被 切换 ， 

4) 使 用 requeue _ task 函数 将 当前 进程 从 RQ 相应 的 active 队列 中 摘除 ,然后 再 加 到 RQ 
的 active 队列 的 队 尾 ,该 函数 的 说 明 见 5.4.1 节 。. 

以 上 程序 中 简单 介绍 了 task _running _tick 函数 对 实时 进程 的 处 理 。 可 以 发 现 ,Linux 系 
统 对 实时 进程 的 处 理 较为 简单 。 在 Linux 系统 中 ,SCHED _ RR 和 SCHED _ FIFO 两 种 调度 
算法 的 实现 也 较为 简单 。 

下 文 将 介绍 task _ running _ tick 函数 对 普通 进程 的 处 理 . 在 Linux 系统 中 ,进程 调度 子 
系统 对 普通 进程 的 处 理 较为 复杂 ,普通 进程 采用 SCHED “NORMAL 或 者 SCHED _ BATCH 
策略 进行 调度 . 

/x# task _ runmning _ tick 函数 源 代 码 片段 3 */ 
证 (1 -p>time_ slice) | 
dequeue_ task(p, rg-> active); 
set_ tsk need_ resched(p); 
p>prio = effective_ prio(p); 
p->time sice = task _ timeslice(p); 
p>first_ time_ slice = 0; 
让 (1 rd >expired timestamp) 
ry >expired _ timestamp = jiffies; 

在 这 段 代 码 中 ,首先 对 当前 进程 的 time _ slice 参数 进行 判断 ,如 果 --time _ slice 为 0, 即 表 
示 分 配给 此 普通 进程 的 时 间 片 耗 尽 时 ,程序 将 进行 以 下 操作 : 

1) 使 用 dequeue _ task 函数 将 此 进程 从 RQ 的 active 队列 中 摘除 ,该 函数 的 详细 描述 见 
3 

2) 使 用 set _ tsk_ need _ resched 函数 将 此 进程 状态 改变 为 TIF _ NEED _ RESCHED. 

3) 使 用 effective _ prio 函数 重新 计算 当前 进程 的 prio 参数 ,使 用 task _ timeslice 国 数 重 新 
计算 当前 进程 的 time _ slice 参数 ,这 两 个 函数 的 详细 摘 述 见 5.1.2 市 。 

4) 将 first time _ slice 和 参数 置 为 0。 

5) 如 果 RQ 的 expired _ timestamp 参数 为 0, 则 将 expired _ timestamp 参数 设置 为 当前 时 
钟 节拍 jiffies。expired _timestamp 参数 为 0 表示 在 当前 RQ 中 的 expired 队列 中 没有 进程 摘 
述 符 。 因 为 只 有 在 RQ 的 active 和 expired 对 列 交 换 时 ,expired _ timestamp 参数 才 可 能 为 0， 
此 时 expired 队列 中 没有 任何 进程 。 


/As task running _ tick 函数 源 代码 片 眉 4 #*/ 
i{ (1 TASK INTERACTIVE(p) || expired _ starving(rq)) | 
enqueue _ task(p, rq- > expired); 
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if (p->static_ prio < rq->best expired _ prio) 
rq >best_expired prio = p->static _ prio; 
| else 
engueue _ task(p, rq- >active); 
| else | 
如 果 当 前 进程 是 交互 式 进程 而 且 在 RQ 的 expired 队列 中 没有 人 饿 死 的 进程 , 则 将 当前 进程 
加 入 到 RQ 中 相应 的 active 队列 中 。Linux 系统 的 调度 程序 优先 在 active 队列 中 选择 合适 的 
进程 ,将 交互 式 进程 加 入 到 active 队列 中 有 利于 提高 其 响应 度 。 
这 段 程 序 中 使 用 宏 TASK _ INTERACTIVE 判断 当前 进程 是 否 为 交互 式 进程 。 该 宏 的 定 
义 为 : 
#define TASK_ INTERACTIVE(p) ((p)->prio <= (p)->static_prio - DELTA(p)) 
这 里 我 们 重 温 5.1.2 节 中 DELTA 的 计算 公式 : 
DELTA(p) = p>astatic prio/4 -28 
bonus = CURRENT_ BONUS(p) - MAX_ BONUS /2 
prio = p->static _ prio - bonus 
bonus = p->sleep_ avg/100 -5 
由 此 可 得 布尔 表达 式 TASK _ INTERACTIVE 的 计算 公式 : 


TASK _INTERACTIVE(p) <=> ((p)->prio < = (p)-.>static_ prio - DELTA(p)) 全 
((p)->prio <= (3* p->static prio/4 +28)) 
p>static_ prio- bonus <= 3* p>static prio/4 +28 
p>static prio/4 < 28 + bonus 
p>static_ prio/4 <= 23 + p>sleep_avg/100 
p-~>static_ prio <= 92 十 p>sleep avg/25 
通过 以 上 公式 ,可 以 发 现 宏 TASK_ INTERACTIVE 只 与 进程 的 static _ prio 参数 和 sleep 
_ avg 参数 有 关 , 当 一 个 进程 的 sleep _ avg 越 大 ,其 成 为 交互 式 进程 的 可 能 性 越 大 。 
这 段 程序 使 用 expired starving 函数 判断 RQ 的 expired 队列 中 是 否 有 饿 死 的 进程 ,该 函 
数 的 源 代码 如 下 所 示 ,如果 该 函数 返回 1 表示 RQ 的 expired 队列 中 有 饿 死 的 进程 。 


static inline int expired _ starving( struct rq * rq) 
| 
if (rq->curr->static _ prio > rg->best_ expired _ prio) 
returmn 1; 
让 (1 STARVATION _LIMIT || ! rq->expired _ timestamp) 
retum 0 ; 
if (jiffies - rq- >expired _ timestamp > STARVATION _LIMIT * rg->nr_ running) 
return 1; 
return 0; 
3 
以 上 程序 使 用 以 下 方法 判断 在 RQ 的 expired 队列 中 是 否 有 人 包 e 死 的 进程 。 
@@ 如 果 在 expired 队列 中 ,优先 级 别 最 高 的 进程 大 于 当前 进程 的 优先 级 别 ,表示 在 expired 
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队列 中 有 被 狐 死 的 进程 。 

9 如 采 RQ 的 expired _ timestamp 参数 为 0 时 ,表示 RQ 的 active 队列 刚刚 与 expired 队列 

进行 交换 ,此 时 在 expired 队列 中 一 定 没 有 被 饿 死 的 进程 。 

9 如 采 RQ 的 expired 队列 重新 建立 的 时 间 (jiffies - rq- 之 expired _ timestamp) 大 于 RQ 中 

的 进程 数 与 宏 STARVATION _ LIMIT 之 积 时 ,表示 RQ 的 expired 队列 中 有 被 饿 死 的 
进程 。 在 Linux 系统 中 , 宏 STARVATION _ LIMIT 等 效 与 MAX_ SLEEP_ AVG.。 

如 有 果 当 前 进程 不 是 交互 式 进程 或 者 在 RQ 的 expired 进程 队列 中 有 人 饿 死 的 进程 时 , 则 将 当 
前 进程 加 入 到 expired 进程 队列 中 。 随 后 这 段 程序 比较 RQ 中 的 best _ expired _ prio 参数 将 与 
当前 进程 的 static _ prio 参数 ,并 使 用 较 小 的 值 更 新 RQ 中 的 best _ expired _ prio 参数 。 

Linux 系统 采用 这 种 方式 管理 RQ 的 active 队列 和 expired 队列 保证 交互 式 进程 不 能 长 时 
间 在 active 队列 中 有 效 而 饭 死 其 他 在 expired 队列 中 的 进程 。 以 上 这 几 段 源 代 码 分 析 了 普通 
进程 使 用 完毕 当前 进程 时 间 片 后 .task _ running _ tick 函数 的 处 理 过 程 。 而 当 进 程 没 有 使 用 完 
毕 当 前 时 间 片 ,task _ running _ tick 函数 将 执行 以 下 源 代 码 : 

Zx# task _ running _ tick 函数 源 代码 片段 5 */ 
| else | 
i (TASK _ INTERACTIVE(p) && 1 ((task _ timeslice(p) - 
p>time_ slice) % TIMESLICE GRANULARITY(p)) && 
(p->time_ slice >= TIMESLICE GRANULARITY(p)) && 
(p->array = = rg >active)) | 
requeue _ task(p, rg- >active); 
set_ tsk_ need_ resched(p); 
| 
| 
out _ unlock: 
spin_ unlock( &rq- > lock); 
| /x End task running_ tick */ 

这 段 代码 首先 判断 当前 进程 是 否 为 交互 式 进程 ,如 果 不 是 , 则 跳 转 到 out _ unlock 标签 处 
使 用 spin _ unlock 打开 自 旋 锁 后 然后 返回 ， 

如 有 果 当 前 进程 是 交互 式 进程 , 则 进一步 通过 一 些 复杂 的 计算 判断 当前 进程 的 time _ slice 
是 否 过 大 ,如 果 该 值 过 大 则 将 此 进程 从 rg 的 active 相应 队列 中 摘除 。 然 后 使 用 set tsk _ need 
_ resched 函数 将 此 进程 状态 改变 为 TIF _ NEED_ RESCHED，Linux 系统 禁止 一 个 进程 使 用 
time _ slice 参数 过 大 ,如 果 出 现 这 种 情况 ,Linux 系统 将 这 个 进程 使 用 的 time _ slice 参数 分 解 
成 一 段 一 段 符合 大 小 的 time _slice。 

由 以 上 代码 ,发 现在 每 次 调用 task _ running _ tick 函数 时 ,都 会 将 进程 的 time slice 参数 
减 1 ,然后 根据 当前 进程 的 时 间 片 的 使 用 情况 对 当前 进程 进行 处 理 。 在 task _ running _ tick 函 
效 返 回 后 ,scheduler _ tick 函数 和 timer _ interrupt 函数 将 会 很 快 结束 ,同时 准备 退出 系统 时 钟 
异常 中 断 处 理 程序 。 

Linux 系统 在 退出 系统 时 钟 异常 中 断 处 理 程序 之 前 ,将 调用 ret _ from _ except 函数 进行 
中 断 的 返回 ,Linux PowerPC 大 多 数 异 常 处 理 和 中 断 处 理 结束 后 都 会 调用 ret _ from except 

16/ 


函数 ,在 该 函数 中 将 有 机 会 调用 schedule 函数 实现 进程 的 切换 ,ret _ from _ except 函数 的 详细 
介绍 见 第 6 章 ， 

如 果 scheduler _ tick 函数 将 一 个 进程 的 flags 参数 设置 为 TIF_NEED_ RESCHED 之 后 ， 
了 该 进 程 在 当前 系统 时 钟 异 第 中 斯 异常 的 ret _ {from _ except 函数 中 调用 schedule 函数 被 切换 出 
去 ,但 是 在 scheduler _ tick 函数 中 ,不 会 切换 当前 进程 ， 


5.4.3 schedule [ 澳 数 


schedule 阴 数 是 Linux 进程 调度 的 核心 。 在 Linux 系统 中 ,schedule 函数 的 主要 作用 是 在 
RQ 的 active 队列 中 选择 一 个 最 合适 的 进程 ,然后 对 进程 进行 上 下 文 切 换 , 最 后 优先 级 最 高 的 
进程 将 被 激活 运行 。 
schedule 国 数 有 两 种 调用 方式 ,主动 调用 和 被 动 调用 。 其 中 , 主动 调用 是 指 在 Linux 系统 的 
内 核 程 序 中 直接 调用 schedule 函数 。 这 类 情况 通常 发 生 在 当前 进程 因为 等 待 某 些 核心 事件 ,如 中 
断 或 者 信号 量 时 ,将 进程 挂 起 ,此 时 核心 程序 需要 首先 将 当前 进程 的 状态 设置 为 TASK _INTER- 
RUPTIBLE 或 者 TASK _UNINTERRUPTIBLE, 然 后 再 调用 schedule 函数 切换 当前 进程 。 
而 被 动 调 用 是 指 当 前 进程 使 用 完 当 前 时 间 片 ,或 者 Linux 系统 中 有 更 高 优先 权 的 进程 时 ， 
将 TIF_NEED_ RESCHED 标志 设置 为 1, 然 后 在 系统 调用 .中断 处 理 或 者 异常 处 理 结 束 之 
后 ,由 相应 的 回调 果 数 隐 式 调用 schedule 函数 切换 当前 进程 。 
在 Linux 系统 中 使 用 以 下 方式 启动 shedule 函数 。 
(1) 在 设备 驱动 程序 ,协议 栈 等 其 他 内 核 程 序 的 执行 过 程 中 ,因为 尖 要 等 待 某 些 资 源 , 主 
动 调用 schedule 函数 将 当前 进程 切换 。 如 上 文 提 到 的 wait _ event 函数 可 以 调用 schedule 函数 
将 进程 主动 进行 切换 。 
(2) 在 进程 结束 时 ,由 do _ exit 函数 主动 调用 schedule 函数 ,切换 已 经 结束 的 进程 ， 
(3) 系统 调用 结束 时 通过 Yet_from syscall ->syscall_exit work —>ret from except 
-之 do _ work 因数 调用 schedule 函数 。 
(4) 在 中 断 或 者 异常 处 理 程序 结束 时 通过 ret _ from_ except 一 >do_ work 函数 调用 schedule 
(5) 系统 调用 nanosleep 也 可 以 调用 schedule 函数 切换 进程 。 该 系统 调用 可 以 迫使 当前 进 
程 进入 睡眠 状态 ,然后 在 指定 的 时 间 里 由 操作 系统 将 该 进程 唤醒 。 程 序 员 常用 的 sleep 库 函 数 
就 是 使 用 系统 调用 nanosleep 实现 的 。 
(6) 系统 调用 pause 也 可 以 调用 schedule 函数 切换 进程 。 该 系统 调用 可 以 迫使 当前 进程 
进 人 睡眠 状态 ,然后 在 接受 某 个 信号 后 由 操作 系统 将 该 进程 唤醒 。 程 序 员 篆 用 的 pause 库 函 
数 就 是 使 用 系统 调用 pause 实现 的 。 该 函数 在 Linux 系统 中 使 用 sys _ pause 函数 实现 。 
(7) 有 时 一 个 进程 由 于 某 种 原因 需要 放弃 CPU 资源 时 ,还 可 以 调用 yield 函数 主动 让 出 CPU 
资源 ,yield 函数 也 会 调用 schedule 函数 。yield 函数 不 同 于 wait _event 函数 ,该 函数 仅 让 出 当前 进 
程 使 用 的 CPU 资源 ,而 不 将 当前 进程 放 人 入 进程 的 等 待 队 列 中 。 该 函数 的 源 代码 如 下 ， 
void _ sched yield( void) 
| 
set _ current _ state( TASK _ RUNNING):; 
sys _ sched _ yield(); 
| 
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该 函数 首先 将 进程 状态 设置 为 TASK _RUNNING, 然 后 调用 sys _ sched _yield 函数 迫使 
当前 进程 计 出 CPU 资源 。sys _ sched _ vield 图 数 的 源 代 码 如 下 ， 
asmlinkage long sys _sched _yield( void) 
| 
struct rq *rg = this_rg_ lock(); 
struct prio_ array * array = current- >array, * target = rg->expired; 


if (rt _ task(current)) 
target = rg->active; 


i (array | = target) | 
dequeue _ task(current, array); 
engueue_ task( current, target):; 
| else 
requeue_ task(current, array); 
_ releasel rq- > lock):; 
spin release( &rq->lock.dep_ map, 1, _ THIS_IP ); 
_raw_ spin_ inlock( &rg- > lock); 
preempt _ enable_ no _ resched( ); 


schedule( ); 
return 0; 
| A/¥ Endsys_ sched_ yield */ 

通过 以 上 程序 可 以 发 现 ,当前 进程 为 实时 进程 时 ,该 进程 将 被 加 入 到 RQ ->active 队列 
的 尾部 ,否则 将 被 加 入 到 RQ ->expired 队列 的 尾部 ,之 后 该 函数 调用 schedule 函数 将 当前 进 
程 切换 出 去 。 

Linux PowerPC 调用 schedule 函数 后 ,将 进行 一 系列 操作 完成 进程 的 切换 。Linux 系统 的 
schedule 函数 编写 的 逻辑 性 较 强 。 如 果 读 者 真正 理解 了 本 章 的 以 上 内 容 , 圆 读 这 段 代 码 的 难 
度 应 该 不 大 。schedule 函数 分 为 两 个 部 分 :进程 切换 前 的 准备 和 进程 的 切换 ， 

1. 进程 切换 前 的 准备 

schedule 函数 没有 输入 参数 也 没有 返回 值 ,只 使 用 系统 的 全 局 变量 进行 输入 输出 操作 。 

asimlinkage void _ sched schedule( void) 
| 

struct task _ struct * prev, # rnexr; 

struct prio_ array ¥ array: 

struct list head * queue; 

unsigned long long now:; 

unsigned long run _ time:; 

int cpu, idx, new _ prio; 

long * Switch count; 

struct rq * rq; 
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schedule 函数 在 开始 处 定义 了 一 些 临时 变量 ,其 中 prev 和 next 含义 如 下 ， 

@ prev 变量 用 来 保存 current 指针 ,指向 当前 进程 描述 符 ， 

9 next 变量 将 指 同 被 选中 的 进程 ,进程 调度 结束 后 该 进程 将 取代 当前 进程 继续 执行 。 如 

有 果 系 统 中 没有 优先 权 高 于 当前 进程 的 进程 ,next 变量 将 与 current 变量 相等 ,此 时 不 会 
切换 当前 进程 。 
if (unlikely(in atomic() @&& 1 current->exit state)) | 
printk(KERN _ ERR BUG: scheduling while atomic: ” 
“%s/Dx%O8x/%d \n, 
current- > comm, preempt _ count(), current- > pid); 
debug _ show _ held _ locks( current) ; 
if (irqs disabled( )) 
print _irqtrace events( current) ; 
dump _ stack( ); 
| 
profile_ hit(SCHED_ PROFILING, _ builtin _ return _ address(0)); 

schedule 函数 在 进行 一 系列 参数 检查 后 将 调用 profile _ hit 函数 ，profile _ hit 函数 是 一 个 
与 内 核 性 能 测试 分 析 有 关 的 函数 。Linux 系统 通过 make menuconfig 配置 Linux 源 代 码 时 ,将 
Instrumentation Support>profile 选项 使 能 以 支持 profile 工具 。 在 内 核 立 持 profile 工具 后 ,可 
以 在 Linux 内 核 启 动 时 加 入 profile = 1 参数 使 用 这 一 工具 。 

Linux 内 核 在 启动 后 将 会 创建 /proc/profile 文件 ,通过 读 取 这 些 文件 ,可 以 获得 有 关 处 理 
让 运行 的 许多 信息 。 根 据 Linux 系统 的 启动 配置 不 同 , 读 取 /proc/profile 文件 的 结果 有 所 不 
本。 如 条 Linux 启动 参数 被 设置 为 "profile = schedule? ”, 读 取 profile 文件 可 以 获得 每 个 图 数 
调用 schedule 函数 的 次 数 , 这 一 点 用 来 调试 schedule 十 分 有 用 。 

对 此 功能 有 兴趣 的 读者 可 以 详细 阅读 . /kernel/profile.c 文件 和 /driver/oprofile 目录 下 的 
相关 文件 .在 schedule 函数 中 ,profile _ hit 函数 的 作用 是 将 当前 指令 的 计数 器 加 1。Linux 系 
统 可 以 根据 此 计数 姻 计 算出 调用 schedule 图 数 的 次 数 。 

所 有 profiling 类 工具 都 有 一 个 共同 的 特点 ,就 是 所 分 析 的 数据 总 是 或 多 或 少 有 些 误差 ,但 
是 这 些 有 误差 的 数据 仍然 可 以 在 很 大 程度 上 反映 系统 的 运行 状态 。 中 级 程序 员 回 高 级 程序 员 
进 阶 的 必 经 之 路 就 是 能 够 合理 使 用 profiling 工具 对 程序 的 性 能 准确 地 进行 分 析 , 对 程序 的 整 
体 性 能 进行 评估 ,从 而 找到 瓶颈 所 在 。 

然而 实现 这 一 点 其 实 并 不 容易 。 同 一 片 树叶 ,有 的 人 一 叶 障 目 , 有 的 人 一 叶 知 秋 

擎 握 Profiling 工具 并 不 容易 ,有关 Profiling 工具 的 讨论 远 远 超出 了 本 书 的 范围 ,对 此 有 兴 
趣 的 读者 可 以 阅读 一 下 Glenn Ammons,Thomas Ball ,James R. Larus 的 Exploiting hardware 
performance counters with flow and context sensitive profiling 和 J. M. Anderson, W. E. 
Weihl, L. M. Berc, ]. Dean, S. Ghemawat 的 Continuous profiling: where have all the cycles 
gone? 等 文章 去 学 习 有 关 Profiling 的 技巧 。 

need _resched: 
preempt _ disable( ) ; 


Erev 三 Curent; 
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release kernel _ lock( prev); 
need _ resched _ nonpreemptible: 
rq = this_ rq(); 


schedstat _ inc(rq, sched _ ent); 
now = sched _ clock(); 
schedule 函数 首先 将 禁止 内 核 抢 占 ,然后 将 current 变量 保存 在 prev 变量 中 以 便 进 行进 程 
切换 ,之 后 获得 rg 和 当前 时 间 now 的 值 。 


if (likely( (long long) (now - prev- >timestamp) < NS_ MAX_ SLEEP _AVG)) | 
run_ time = now - prev- > timestamp; 
if (unlikely( (long long) (now - prev- > timestamp) < 0)) 
run_ time = 0; 
| else 
run_ tme = NS MAX SLEEFEP AVO: 

该 段 程序 将 当前 CPU 时 间 减 去 prev 进程 的 最 近 一 次 使 用 CPU 的 时 间 惟 timestamp 参 
数 ,从 而 得 到 当前 进程 使 用 CPU 的 时 间 run time。Linux 系统 中 run _ time 的 值 不 能 大 于 NS 
MAX SLEEP AVG: 

进程 的 timestamp 参数 可 以 在 以 下 情况 下 被 更 新 : 

(1) 当 进 程 刚 被 创建 或 者 从 等 待 状态 加 入 到 RQ 的 active 相应 队列 时 ,Linux 系统 将 使 用 
activate _ task 函数 更 新 timestamp 参数 。 此 时 通过 now - p ->timestamp 可 以 得 到 当前 进程 
的 睡 虐 时 间 -。 

(2) 当 正 在 运行 的 进程 pl 被 schedule 函数 切换 到 进程 p2 时 ,p2 进程 的 timestamp 参数 将 
被 更 改 为 当前 时 间 now,p2 进程 也 将 成 为 新 的 当前 进程 。 此 后 当 p2 进程 第 一 次 进入 schedule 
函数 时 ,通过 now - p2 ->timestamp 就 会 得 到 当前 进程 p2 使 用 CPU 的 时 间 。 在 上 面 这 段 程 
序 中 ,进程 的 run _ time 参数 就 是 基于 此 计算 出 来 的 。 

在 Linux 系统 中 ,进程 的 timestamp 参数 十 分 重要 ,该 参数 在 进程 创建 和 切换 时 都 将 航 更 
改 ,timestamp 参数 对 于 Linux 系统 进程 调度 的 时 间 参 数 计算 十 分 重要 。 在 Linux 系统 进程 调 
度 中 ,一 个 重要 细节 就 是 如 何 对 时 间 的 精确 计算 。 进 程 调 度 中 一 些 大 的 算法 表面 上 看 是 比较 
容易 理解 的 ,只 是 准确 理解 这 些 算法 需要 理解 许多 细节 知识 。 

W 其 
# Tasks charged proportionately less ren _ time at high sleep avg to 
# delay them losing their interactive status 
% 

rm _ time /= (CURRENT BONUS(prev) ? : 1); 

spin_ lock _ irg( 故 rq- >lock); 

以 上 程序 根据 进程 的 bonus 的 值 按 比 例 缩 小 run _ time 的 值 , 随 后 使 用 spin _ lock _ irg 获 
得 ru 的 自 旋 锁 。spin_ lock _irg 与 spin _ lock 函数 不 同 ,该 函数 在 获得 自 旋 锁 的 同时 屏蔽 外 部 
中 断 。 

了 7 了 


Switch count = 有 Prev- >>mivesw; 
证 《Prev- > state 攻 攻 1 (preempt _ count( ) 有 PREEMPT ACTIVE)) | 
switch_ count = 作 Drev- > nvesw; 
if (unlikely( (prev- >state & TASK _ INTERRUPTIBLE) && 
unlikely(signal _ pending( prev) ) )) 
prev- >state = TASK _ RUNNING:; 
else | 
i{f (prev->state = = TASK _ UNINTERRUPTIBLE) 
rq->nr_ uninterruptible++ ; 
deactivare _ task (prev, rq); 
| 
| 

以 上 程序 对 prev 进程 进行 状态 检查 ,如果 prev 进程 的 state 参数 不 是 TASK RUNNING 
而 且 prev 进程 不 是 被 因为 被 抢占 而 进入 schedule 函数 的 , 则 继续 判断 prev 进程 的 状态 是 否 为 
TASK _INTERRUPTIBLE。 

如 果 prev 进程 是 因为 等 待 基 些 信号 量 而 使 用 schedule 函数 主动 进行 切换 ,同时 在 执行 到 
本 段 代 码 时 ,等待 的 信号 正巧 来 临 , 即 signal _ pending(prev) 的 结果 为 真 , 则 将 prev -> state 的 
值 置 为 TASK _RUNNING ,发 生 这 种 情况 的 概率 非常 小 ;否则 继续 判断 prev ->state 参数 的 
值 是 否 为 TASK _UNINTERRUPTIBLE ,如 果 是 则 将 RQ 的 nr _ uninterruptible 计数 加 1, 然 
后 将 prev 进程 从 进程 的 活动 队列 中 摘除 ， 

当 处 理 进程 主动 地 将 进程 描述 符 中 的 state 改写 为 TASK_ UNINTERRUPTIBLE 或 者 
TASK _ INTERRUPTIBLE ,然后 使 用 schedule 函数 将 该 进程 切换 时 ,将 运行 以 上 代码 ， 

cpu = smp _ processor _id(); 
if (unlikely(! rq->nr_ running)) | 
idle_ balance( cpu, rg): 
i{ (1 rq>nr_ running) | 
next = rq->idle; 
rq->expired _ timestamp = 0; 
wake_ sleeping _ dependent(cpu); 
goto switch _ tasks; 
| 


这 段 程序 首先 获得 当前 进程 在 使 用 的 CPU。 如果 RQ 中 没有 处 于 TASK __RUNNING 状 
态 的 进程 则 调用 idle _balance 函数 和 wake _sleeping ”dependent 函数 。 这 两 个 函数 只 对 Lin- 
ux SMP 系统 有 效 , 对 于 单 CPU 的 Linux 系统 中 这 两 个 函数 为 空 函 数 。 如 果 idle ”balance 函 
数 没 有 将 在 其 他 CPU 中 的 进程 搬移 到 当前 RQ 时 ,rq ->nr _ running 将 仍然 为 0, 此 时 将 
next 指 回 idle 进程 ,并 将 RQ 的 expired _ timestamp 参数 置 为 0,wake _ sleeping ”dependent 范 
数 用 来 支持 SMT 体系 的 处 理 器 ,本 书 对 此 不 做 介绍 。 在 单 处 理 器 系统 中 以 上 代码 较为 简单 ， 
当 RQ 中 没有 处 于 TASK _ RUNNING 状态 的 进程 , 则 选择 idle 进程 作为 下 一 个 即将 运行 的 
进程 ,然后 进行 进程 切换 。 
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array = rg- > active; 
这 (unlikely(! array- >nr active)) | 
A 
* Switch the active and expired arrays. 
/A 
schedstat _ inc{rg, sched _ switch); 
rq- 之 active = rg->expired; 
rq- >expired = arrayi 
array = Trg- >active; 
rg- >expired _ timestamp = 0; 
rg->best_ expired _prio = MAX PRIO:; 
| 


如 果 RQ 的 active 队列 中 没有 活动 进程 , 则 将 指向 RQ 中 的 active 队列 的 指针 与 指向 RQ 
中 expired 队列 的 指针 互 换 。 这 两 个 指针 互 换 完 毕 后 ,RQ 的 expired 队列 将 不 会 存在 任何 进 
程 ,因此 这 段 程 序 将 RQ 的 expired _timestamp 参数 和 best _expired _ prio 参数 分 别 置 为 0 和 
MAX PRIO 


idx = sched find_ first _ bit(array- > bitmap); 
queue = array- > queue + idx; 
next = list_ entry(queue- >next, struct task _ struct, run _ list); 
这 段 程序 是 进程 调度 的 关键 代码 。 这 段 程 序 用 来 确定 在 当前 系统 中 优先 权 最 闹 的 进程 ， 
其 执行 流程 如 下 所 示 : 
1) 在 rq 一 之 active 一 之 bitmap 中 查找 第 一 个 有 效 位 idx 
2) 使 用 idx 获得 在 当前 active 中 优先 权 最 高 的 队列 queue。 
3) 获得 这 个 queue 中 的 第 一 个 进程 next ，Linux 系统 认为 这 个 进程 就 是 当前 Linux 系统 
中 优先 权 最 高 的 进程 ， 
在 获得 当前 系统 优先 权 最 高 的 进程 后 ,将 执行 以 下 程序 : 


这 (1 rt task(next) 区 及 interactive sleep(next- >sleep _ type)) | 

unsigned long long delta = now - next- > timestamp; 
if (unlikely( (long long) (now - next- > timestamp) < 0)) 

delta = 0: 
if (next->sleep_ type = = SLEEP INTERACTIVE) 

delta = delta * (ON_ RUNQUEUE WEIGHT * 128 /100) 7 128; 
array = next->array; 
new _ prio = recalc task _ prio(next, next->timestamp + delta); 
if (unlikely(next- >prio ! = new _ prio)) | 

dequeue _ task(next, array); 

Dext- 之 Prio = new _ prio; 
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enqueue _ task( next, array); 
| 
| 
next- >sleep_ type = SLEEP NORMAL; 

以 上 代码 主要 执行 以 下 操作 : 

1) 如 有 果 next 进程 不 是 实时 进程 而 且 该 进程 的 sleep _ type 参数 是 SLEEP _ INTERAC- 
TIVE 或 者 为 SLEEP _ INTERRUPTED 时 ,将 重新 计算 next 进程 的 prio 和 sleep _ avg 参数 ， 

2) delta 变量 记录 next 进程 在 RQ 队列 中 的 等 待 时 间 。 如 果 进 程 的 sleep _ type 参数 为 
SLEEP _ INTERACTIVE 时 ,delta 的 值 为 3* delta/10. 

3) 根据 delta 的 值 重 新 计算 进程 的 优先 级 别 new _ prio, 如 果 next 进程 的 prio 与 new _ 
prio 不 相等 则 将 next ->>Prio 置 为 new _ prio。 

4) 最 后 将 进程 的 sleep _type 参数 更 改 为 SLEEP_ NORMAL。 

要 诛 刻 理解 这 段 代 码 震 要 了 解 进程 描述 符 的 sleep _ type 参数 。 为 明晰 起 见 ,Linux 系统 
使 用 sleep _ type 参数 替换 了 版 本 较 早 的 Linux 的 进程 描述 符 的 activared 参数 ,对 此 有 兴趣 的 
读者 可 以 参考 以 下 URL， 

http: /Akml.org/Akml/2006/1 13/75 

由 5.1.2 节 得 知 ,进程 描述 符 的 sleep type 参数 共有 以 下 四 种 状态 : 

(1) SLEEP_ NONINTERACTIVE, 该 状态 与 activated 参数 为 -1 的 值 相对 应 。 表示 进 程 
从 TASK_ UNINTERRUPTIBLE 等 待 状态 中 激活 。 

(2) SLEEP_ NORMAL ,该 状态 与 activated 参数 为 0 的 值 相 对 应 。 表 示 进 程 一 直 处 于 就 
绪 态 ,没有 因为 等 待 某 个 中 断 或 者 信号 资源 而 进入 过 等 待 状态 

(3) SLEEP _ INTERACTIVE, 该 状态 与 activated 参数 为 1 的 值 相对 应 。 表 示 进 程 从 TASK 
INIERRUPTIBLE 等 待 状态 中 激活 。 而 且 激 活该 进程 的 程序 不 运行 在 中 断 处 理 程序 中 。 

(4) SLEEP _ INTERRUPTED, 该 状态 与 activated 参数 为 2 的 值 相对 应 。 表 示 进 程 从 TASK 
_ INTERRUPTIBLE 等 行 状态 中 激活 。 而 且 激 活该 进程 的 程序 运行 在 中 断 处 理 程序 中 。 

在 Linux 系统 中 ,一 个 进程 的 sleep _ type 参数 可 以 按照 以 下 规则 进行 转换 ， 

(1) 一 个 进程 第 一 次 加 入 到 进程 的 RQ 中 时 ,其 进程 描述 符 的 sleep _ type 参数 与 其 父 进 
程 sleep _ type 参数 相同 。 进 程 第 一 次 获得 CPU 资源 运行 时 .其 进程 描述 符 的 sleep _ type 参 
数 将 被 改写 为 SLEEP_ NORMAL. 

(2) 当 进 程 使 用 完 当 前 的 时 间 片 ,被 切换 到 就 绪 状 态 时 ,其 sleep _ type 参数 不 变 。 当 这 个 
进程 再 次 从 就 绪 到 运行 时 ,其 进程 描述 符 的 sleep _ type 参数 将 被 置 为 SLEEP NORMAL。 

(3) 当 进 程 因为 等 待 某 些 信号 资源 ,被 切换 到 等 待 状 态 时 ,其 sleep _ type 参数 不 变 。 但 是 
当 这 个 进程 等 待 的 信号 来 临时 ,Linux 系统 将 调用 try _to_wake _ up 函数 将 其 sleep _ type 参 
数 改 变 为 SLEEP_ NONINTERACTIVE。 

(4) 当 进 程 因为 等 待 菜 些 中 断 资源 ,被 切换 到 等 待 状态 时 ,其 sleep _ type 参数 不 变 , 但 是 
当 这 个 进程 等 待 的 中 断 来 临时 , Linux 系统 将 调用 try_ to_ wake up>activate _ task 函数 将 
进程 从 等 竺 状态 迁移 到 就 绪 状 态 . 同 时 将 sleep _ type 参数 改变 为 SLEEP _ INTERACTIVE 
(在 中 断 处 理 程 序 中 调用 activate _ task 函数 ) 或 者 SLEEP_INTERRUPTED( 没 有 在 中 断 处 理 
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程序 中 调用 activate _ task 国 数 ) . 

由 此 可 见 ,在 sleep _ type 参数 的 四 种 状态 中 ,处 于 SLEEP _ INTERRUPTED 状态 的 进程 
交互 式 等 级 最 高 ,因为 Linux 系统 认为 经 常 需要 被 中 断 程 序 唤醒 的 进程 ,其 交互 式 等 级 最 高 ; 
处 于 SLEEP_INTERACTIVE 和 SLEEP _ NONINTERACTIVE 状态 的 进程 ,其 交互 式 等 级 
次 之 ;处 于 SLEEP _NORMAL 状态 的 进程 ,其 交互 式 等 级 最 低 。 

Linux 系统 并 不 直接 使 用 以 上 四 种 状态 判断 该 进程 是 否 为 交互 式 进程 ,而 是 通过 这 些 状 
态 影 响 进 程 的 sleep _avg 参数 ,从 而 间接 地 影响 当前 进程 的 交互 性 。 当 一 个 交互 式 进 程 较 长 
时 间 地 使 用 CPU 后 ,该 进程 的 交互 式 级 别 将 逐渐 降低 ,从 而 转换 成 为 一 个 普通 进程 ,这 也 是 在 
本 段 程序 中 将 delta 的 值 改变 为 3x delta/10 的 原因 ， 

2. 进程 的 切换 

Linux 系统 选择 出 优先 权 最 高 的 进程 后 ,将 进程 next 与 当前 进程 prev 的 进程 运行 空间 切 


switch _ tasks: 
让 《next = = rg->idle) 
schedstat _ inc(rq, sched _ goidle); 
prefetch( next); 
prefetch _ stack( next); 
clear_ tsk_ need _ resched( prev); 
reu_ dsctr _ inc(task _ cpu(prev)); 
update _ cpu _ clock(prev, rq, now); 
这 段 代 码 首先 调用 prefetch 函数 ,将 next 进程 的 进程 摘 述 符 指 针 预 取 到 Cache 中 。Linux 
PowerPC 使 用 dcbt 指令 实现 这 一 操作 ， 目 前 Linux 系统 对 Cache 的 优化 只 针对 L1 Caches 之 
后 这 段 代码 将 进程 描述 符 flags 参数 的 TIF _ NEED_ RESCHED 位 清除 ， 


prev- >sleep_ avg -= run _ time; 
if ((long)prev->sleep_ avg < = 0) 
prev- >sleep avg = 0; 
prev- > timestamp = prev->last_ ran = Now; 


sched _ info_ switech( prev, next); 


这 段 程 序 根据 进程 使 用 的 时 间 片 run _ time 减少 prev 进程 的 平均 睡眠 时 间 sleep _ avg, 然 
后 更 新 prev 进程 的 timestamp 和 last _ ran 参数 为 now. 


if (likely(prev 1 = next)) | 
next- > timestamp = now; 
rq->nr_ switches++ ; 
rq->curr = next; 
十 十 ¥ switch _ count; 


prepare task switch(rqg, next); 
prev = context _ switch(rg, prev, next); 
barrier( ) ; 
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A 
* this_ rq must be evaluated again because prev may have moved 
< CPUs since it called schedule( ) thus the ‘rq’ on its stack 
* frame will be invalid. 
¥/ 

finish_ task _ switch(this _ rg(), prev); 

| else 
spin_ unlock _ irg( &rg- > lock); 


Brew = current: 


| /x End Schedule * / 

这 段 程 序 首先 判断 prev 参数 是 否 与 next 参数 相等 。 当 RQ 的 active 队列 中 所 有 进程 的 
优先 权 都 不 高 于 prev 进程 时 ,prev 与 next 相等 ,此 时 不 需要 进行 进程 切换 . 但 是 在 多 数 情况 
下 ,prev 与 next 的 值 不 相同 ,此 时 必须 进行 进程 切换 ,其 步骤 如 下 ， 

1) 自 先 这 段 程序 更 新 next 进程 的 timestmap 参数 为 now。 当 next 进程 被 schedule 函数 
切换 后 ,可 以 利用 在 这 里 保存 的 timestamp 参数 计算 next 进程 在 CPU 中 运行 的 时 间 。 

2) 随后 更 新 RQ 中 的 nr switches 和 curr 参数 ,确定 RQ 中 的 当前 进程 为 next 进程 。 

3) 调用 context _ switch 函数 将 prev 与 next 进程 进行 切换 ,该 隙 数 是 进程 切换 的 要 点 。 
该 函数 将 完成 新 老 进程 的 运行 空间 的 切换 ,该 函数 将 在 下 文 详细 描述 

4) 执行 存储 器 栏 机 操作 保证 进程 切换 后 的 内 存 一 致 性 ,然后 调用 finish task _ switch 加 
数 清理 进程 切换 后 的 现场 。 

3，context _ switch 函数 

context _ switch 图 数 是 进程 切换 中 最 重要 的 函数 ,其 主要 作用 有 两 个 ,一 是 切换 prev 进程 
和 next 进程 使 用 的 内 存 空 间 ,二 是 切换 prev 进程 和 next 进程 的 上 下 文 ,包括 这 两 个 进程 使 用 
的 系统 寄存 器 ,堆栈 等 系统 资源 ,其 源 代 码 如 下 : 


static inline struct task struct * 
context_ switch( struct rq * rq, struct task _ struct * prev, 
struct task struct * next) 


| 


在 Linux 系统 中 .context _ switch 函数 只 能 被 schedule 函数 调用 ,该 函数 中 的 三 个 参数 与 
schedule 函数 中 的 rq,prev 和 next 变量 的 值 相 同 ,返回 值 为 被 切换 进程 的 进程 描述 符 。 


struct mm _ stnict # Tam = riext- >mm: 
struct mm _ struct * oldmm = prev- >active mm; 


让 (1 mm) | 
next- >active _ mm = oldmm:; 
atomic _ inc( 态 oldmm- >mm _ count); 
enter _ lazy _ tlb(oldmm, next): 

| else 
switch _ mm(oldmm, mm, next); 
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要 理解 这 段 程序 ,读者 需要 对 Linuix 内 存 管理 有 一 定 的 认识 ,读者 可 以 在 阅读 本 书 的 第 
7 章 后 ,重新 温习 这 段 代码 。 这 段 代 码 的 执行 流程 如 下 : 

1) 这 段 程序 将 首先 判断 next 进程 的 mm 参数 是 否 为 NULL。 如 果 为 空 , 表 示 next 进程 
十 核心 进程 。 此 时 将 next 进程 的 aetive _mm 参数 置 为 prev->active mm 参数 ,表示 核心 进程 
next 将 信用 prev 进程 的 地 址 空间 。 

2) prev 一 >active__mm 一 >mm _ count 参数 加 1 以 增加 对 此 用 户 进程 地 址 空间 的 引用 计数 。 

3) 调用 enter lazv _ tlb 函数 。 对 于 基于 E500 内 核 的 Linux PowerPC ,该 国 数 为 空 国 数 ， 
不 过 有 的 体系 结构 的 处 理 器 支持 这 个 函数 .Lazy TLB 的 主要 作用 是 提高 SMP 结构 的 处 理 器 
系统 或 者 DSM 结构 的 处 理 器 系统 的 TLB 的 刷新 效率 ,对 此 有 兴趣 的 读者 可 以 阅读 Ernest S. 
Cohen 的 Lazy Flushing of Translation Lookaside Buffers, 这 篇 文章 提供 了 一 种 使 用 Lazy TLB 
的 方法 。 这 个 方法 也 是 一 个 专利 技术 (US Patent 7,069,389)。 

4) 如 果 next 进程 的 mm 参数 不 为 NULL, 则 表示 next 进程 是 一 个 用 户 进程 ,此 时 将 调用 
switch _ mm 函数 完成 进程 地 址 空间 的 转换 ， 

switch _ mm 消 数 在 . /include/asm-powerpc/mmu context.c 文件 中 。 在 switch” mm 函 
数 中 ,如 果 prev 与 next 相等 ,将 不 做 任何 操作 ,否则 将 调用 switch stab 函数 将 next 进程 的 
mm 描述 符 .PC(Program Counter) 和 堆栈 指针 SP 预 取 到 sdata 段 的 stab 中 ,在 stab 中 存放 着 
数据 的 物理 地 址 与 虚拟 地 址 的 转换 关系 ,其 结构 如 下 所 示 : 


struct stab entry | 
unsigned long esid data; 
unsigned long vsid _ data; 
多 
switch _ stab 函数 调用 _ ste _ allocate 一 >make _ste 函数 在 sdata 段 中 建立 当前 PC 和 SP 
所 在 物理 地 址 的 stb _ entry。Linux PowerPC 使 用 寄存 器 GPR13 保存 sdata 段 ,sdata 段 内 数据 
或 者 指令 的 访问 与 data 段 和 text 段 的 访问 机 制 有 所 不 同 , 该 函数 还 会 完成 新 老 进程 的 TLB 
同步 。switch _ mm 函数 执行 完毕 后 ,context _ switch 函数 将 执行 以 下 代码 。 


if (! prev->mm) | 
prev- >active_ mm = NULL:; 
WARN ON(rg >prev_ mm); 
rq->prev _ mm = oldmm:; 
| 
这 上段 程序 对 prev ->mm 参数 进行 检查 。 如 果 其 值 为 NULL, 则 表示 prev 进程 是 核心 进 
程 ,此 时 需要 将 prev 进程 借用 的 进程 地 址 空间 active_ mm 释放 ,随后 将 RQ 的 prev_ mm 参数 
置 为 oldmm。 在 context _ switch 函数 的 最 后 ,将 调用 switch _ to 函数 ,切换 新 老 进程 使 用 的 系 
统 寄存 器 和 堆栈 : 
switch totprev，next，Prev ) ; 
| A/#* End context switch */ 
Linux PowerPC 的 switch 函数 在 . /include/asm-powerpc/system.bh 文件 中 ,Linux 系统 使 
用 宕 定义 实现 该 函数 : 
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# define switch _ to(prev, next, last) ((last) = _ switch _ to((prev)，(next))) 
宏 switch _ to 将 调用 switch _ to 函数 ， switch _ to 国 数 在 . /arch/powerpc/kernel/pro- 
cess.c 文件 中 ,其 源 代 码 如 下 : 


struct task struct * switch_ to(stract task _ struct * prev, struct task _ struct * new) 


} 
I 


struct thread _ stract * new _ thread, * old _ thread 
unsigned long flags; 

struct task _ struct * last; 

new _ thread = 必 new- > thread; 

old _ thread = 人 current- > thread; 


local _ irq _ save(flags): 
last = _ switch(old _ thread, new _ thread); 


local itrq restore( {lags); 
return last: 


| 


这 段 程序 使 用 _ switch 函数 切换 新 老 进 程 使 用 的 系统 寄存 益 和 堆栈 。 

4. _ switch 函数 

_ switch 函数 在 . /arch/powerpc/kernel/entry _ 32.S 文 件 中 .该 函数 将 next 一 之 thread 参 
准 和 prev 一 之 thread 参数 区 换 。 该 国 数 有 两 个 输 人 和 参数 old _ thread 和 new _ thread, 在 _ 
switch _ to 函数 中 .可 以 发 现 old thread = 性 current 一 >thread. 即 当前 进程 thread 人 参数。 而 
new _ thread = &new 一 >thread, 即 为 新 进程 thread 参数 的 地 址 ， 

在 _switch 函数 执行 完毕 后 ,current 指针 将 被 更 新 ,新 老 进程 的 上 下 文 在 这 个 函数 返回 时 
被 切换 。 _ switch 函数 返回 后 ,将 不 在 prev 进程 的 上 下 文中 执行 而 是 在 next 进程 的 上 下 文中 
执行 ,这 个 函数 是 Linux PowerPC 实现 进程 切换 的 核心 。 


_ GLOBAL(_ switch) 

stwurl,-INT FRAME SIZE(z1) 
mflr 10 
stw ,INT FRAME SIZE+4(rl) 
SAVE_ NVGPRS(r]l) 
stw 0,_ NIP(r1) A/¥ Return to Switch caller * / 
mfmsr rll 
li ,MSR _ FP 7/x# Disable floating-point ¥*/ 
and. ,0 ,rll A* FP or altivec or SPE enabled? */ 
beq+ 1f 
andc rll1 ,ril.x0 
MTMSRD(r11) 
isyne 

这 段 代 码 的 执行 流程 如 下 : 
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1) 建立 _ switch 函数 的 栈 帧 ,该 函数 堆栈 大 小 为 INT_ FRAME _SIZE。 

2) 将 LR 寄存 器 存 人 寄存 器 GPR0 中 ,然后 将 寄存 器 GPR0 压 人 堆栈 ,以 便 使 用 blr 指令 
将 _switch 函数 返回 。 

3) 使 用 SAVE_ NVGPRS 将 寄存 器 GPR13 一 31 存 人 当前 栈 帧 的 相应 位 置 。 switch 函 
数 中 没有 临时 变量 ,因此 当前 堆栈 从 GPR1 + 16(STACK ”FRAME ”OVERHEAD) 开 始 存放 
pt _ reg 结 愧 中 32 位 寄存 器 。 由 2.4.2 节 得 知 ,寄存 器 GPR3 一 10 用 来 存放 系统 的 输入 参数 ， 
所 以 不 用 保存 。 

4) 将 寄存 前 GPR0 的 值 存 人 到 堆栈 的 相应 位 置 ， 

5) 将 MSR 寄存 器 存 人 GPR11 寄存 器 中 ，. 

6) 识别 当前 处 理 器 是 否 使 能 了 FP 处 理 器 、Altivec 或 SPE。Freescale 的 G4 系列 的 处 理 
器 内 含有 Altivec, 而 E500 内核 的 处 理 器 含有 SPE 


1: stw rll, MSRI(r]) 
mter ri0 
stw rl0, CCR(rl) 
stw r] ,KSP(r3) /# Set old stack pointer * / 


8 将 GPR11 寄存 器 压 人 堆栈 。 
9 将 CR 寄存 器 保存 到 GPRI10 寄存 器 中 , 然后 再 压 人 堆栈 。 以 上 寄存 器 的 压 栈 方法 与 
PowerPC ABI 规定 的 栈 师 结构 完全 兼容 , 谍 者 可 以 回顾 2.4.3 市 进一步 了 解 PowerPC 


处 理 融 的 堆栈 结构 . 
tophys(10,r4) 
CLR__TOP32(zg) 
mtspr SPRN _ SPRG3,10 A¥ Update current THREAD phys addr # / 
lwz rl ,KSP(r4) /A#* Load new stack pointer * / 


8 将 保存 在 GPR4 寄存 器 中 的 new _ thread 的 虚拟 地 址 通过 宏 tophys 转换 为 物理 地 址 ， 
然后 将 这 个 物理 地 址 存放 到 GPR0 寄存 器 中 。E500 内 核 的 MMU 不 能 关闭 ,因此 存放 
在 GPR0 寄存 器 的 地 址 还 是 虚拟 地 址 。 

@ 将 GPR0 寄存 器 的 值 存放 到 寄存 器 SPERG3 中 。Linux PowerPC 中 使 用 寄存 器 SPRG3 
存放 当前 进程 描述 符 的 thread 参数 

9 使 用 new _ thread 中 保存 的 堆栈 指针 寄存 器 更 新 寄存 器 GPR1 ,完成 新 老 进程 堆栈 空间 
的 切换 ， 

mr T3172 
addi r2,74,-THREAD A Update current ¥/ 

e 将 当前 进程 描述 符 的 地 址 存 人 寄存 器 GPR3 中 。 在 _ switch 清 数 返回 时 ,GPR3 寄存 器 
中 保存 返回 值 ， 由 此 可 以 发 现 ， switch 函数 的 返回 值 为 老 进程 的 进程 描述 符 , 即 prev 
的 进程 描述 符 指 针 . 

9 将 寄存 器 GPR4 的 内 容 减 去 THREAD, 其 中 GPR4 寄存 器 中 存放 着 即将 获得 CPU 资源 
运行 进程 thread 参数 的 地 址 ,而 宏 THREAD 用 来 记录 thread 结构 在 task struct 结构 
中 的 偏 移 。 因 此 两 者 之 差 为 即将 获得 CPU 资源 运行 进程 的 进程 描述 符 的 地 址 。 至 此 ， 
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该 函数 完成 了 新 老 进程 的 进程 描述 符 的 切换 ,新 进程 的 描述 符 地 址 将 被 存 和 人 GPR2 寄 
人 存 郑 中 。 此 时 Linux 系统 已 经 认为 ,当前 进程 为 next 进程 

lwz D0, CCR(rI) 

mtcrf 0OxFF ,IO 

/# IT3-r12 are destroyed -- Cort */ 

REST _ NVGPRS(+]) 


lwz r4,_ NIP(rl) /# Retum to_ switch caller in new task */ 
mtlr rd 


从 堆栈 中 恢复 CR, GPR13 一 31 和 LR 寄存 器 的 内 容 。 此 时 读者 需要 明白 此 时 恢复 的 
CR ,GPR13 一 31,LR 寄存 需 不 是 prev 进程 进 人 _switch 函数 时 存放 的 值 ,而 是 next 进程 进入 _ 
switch 图 数 时 存放 的 值 。 因 为 在 此 之 前 ， switch 国 数 已 经 切换 了 新 老 进程 的 堆栈 。 
next 进程 是 本 次 进程 调度 的 受益 者 ,这 个 进程 即将 获得 CPU 运行 。 但 是 该 进程 也 曾经 被 
其 他 进程 切换 过 , 那 时 该 进程 将 在 进入 _ switch 函数 时 将 CR,GPR13 一 31 和 LR 寄存 器 保存 
起 来 ,此 时 恢复 的 CR,GPR13 一 31 和 LR 寄存 器 就 是 当时 保存 在 堆栈 里 的 寄存 器 ， 
addi rl ,rl ,INT FRAME SIZE 
blr 


自 先 调整 堆栈 指针 GPR1 ,然后 使 用 blr 指令 将 进程 跳 转 到 LR 寄存 器 指定 的 地 址 处 运 
行 ,并 将 保存 在 GPR3 寄存 器 中 的 进程 描述 符 作为 返回 值 。 当 switch 函数 返回 时 ,已 物 似 人 
非 ， switch 图 数 由 prev 进程 调用 ,但 是 返回 时 将 运行 在 next 进程 的 地 址 空间 中 。 

上 述 程序 段 的 blr 指令 所 在 的 程序 地 址 是 一 个 非常 特殊 的 程序 地 址 , 当 一 个 旧 进 程 因 为 
采种 原因 被 切换 时 , 旧 进 程 就 停留 在 这 个 程序 地 址 中 ,下 一 次 运行 时 也 是 由 此 程序 地 址 开始 重 
新 执行 。 在 Linux 系统 中 ,所 有 处 于 等 待 、 就 绪 状 态 的 进程 都 停留 在 这 条 blr 指令 所 在 的 程序 
地 址 处 ,这 条 指令 所 在 的 地 址 也 是 进程 切换 的 转折 点 ,在 此 之 前 该 程序 使 用 prev 进程 的 上 下 
文 , 而 在 此 之 后 将 使 用 next 进程 的 上 下 文 . 

_ switch 图 效 返回 后 ， switch _ to 图 数 也 很 快 执行 完毕 ,从 而 完成 context _ switch 函数 的 
执行 .进程 的 切换 。 
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第 6 瘟 Linux PowerPC 的 外 部 中 晰 处 理 系统 


Linux PowerPC 的 中 断 系 统 与 进程 调度 内存 管理 及 设备 驱动 程序 紧密 相连 。 本 书 在 第 $ 
章 中 ,介绍 了 系统 时 钟 异 常 的 处 理 , 下 文 将 介绍 Linux PowerPC 对 外 部 中 断 的 处 理 和 系统 调用 
异常 。 在 PowerPC 处 理 妖 中 , 当 外 部 中 断 事件 发 生 时 ,处 理 带 停止 执行 当前 指令 ,并 跳 转 到 外 
部 中 断 处 理 程序 中 执行 。Linux PowerPC 在 设计 外 部 中 断 处 理 程序 时 ,需要 考虑 以 下 内 容 , 以 
保证 外 部 中 断 系 统 设计 的 完备 性 。 

e 在 Linux PowerPC 中 ,设备 驱动 程序 的 中 断 处 理 服务 例 程 最 终 挂 接 到 外 部 中 断 处 理 格 

数 ExternalInput 中 ,统一 进行 处 理 , 如 何 合理 地 设置 数据 结构 处 理 这 些 来 自 不 同 设备 
驱动 程序 的 中 断 请 求 ? 

@ Linux PowerPC 需要 保证 中 断 处 理 程序 能 够 正常 运行 ,能 够 使 不 同 种 类 的 设备 驱动 程 

序 共享 同一 个 中 断 信号 int# ,如 何 实现 这 种 共享 ? 

e@ 操作 系统 支持 中 断 租 套 , 如 何 实现 这 一 机 制 ? 

e@ 在 Linux PowerPC 的 中 断 处 理 程序 中 ,并 不 是 所 有 代码 都 支持 中 断 重信 ,如 何 界 定 哪些 

代码 可 以 被 中 断 重 入 ? 

e 在 外 部 中 断 处 理 程序 中 ,需要 调用 其 他 函数 ,也 需要 文 持 中 断 般 套 。 因 此 外 部 中 断 处 理 

程序 需要 使 用 堆栈 ,保存 一 些 必要 的 参数 和 中 间 结 果 。 如 何在 外 部 中 断 处 理 程序 中 设 
置 中 断 堆 栈 也 是 系统 程序 员 需 要 认真 考虑 的 问题 。 

在 外 部 中 断 处 理 的 过 程 中 ,除了 注意 以 上 问题 之 外 ,程序 员 还 需要 注意 Linux PowerPC 外 
部 中 断 处 理 程序 的 优先 权 较 高 。 程 序 员 在 书写 外 部 中 断 处 理 程序 的 代码 时 ,需要 尽 可 能 精炼 ， 
尽 可 能 减少 中 断 处 理 程序 占用 的 CPU 时 间 。 

Linux PowerPC 外 部 中 断 处 理 系 统 由 三 大 部 分 组 成 : 

(1) Linux PowerPC 对 外 部 中 断 系统 的 初始 化 ,包括 为 一 些 重要 数据 结构 空间 的 分 配 内 
存 并 进行 初始 化 。Linux PowerPC 在 进入 ExternalInput 图 数 处 理 外 部 中 断 之 前 ,需要 进行 必 
要 的 准备 工作 。 

(2) 设备 驱动 程序 的 中 断 服务 例 程 与 外 部 中 断 处 理 系统 的 挂 接 。 在 设备 驱动 程序 初始 化 
时 ,使 用 request _ irq 函数 将 外 部 设备 的 中 断 服务 例 程 与 Linux PowerPC 的 ExternalInput 男 数 
挂 接 。 进 入 ExternalInput 函数 后 ,Linux PowerPC 经 过 一 系列 的 操作 后 ,将 调用 相应 设备 驱动 
程序 的 中 断 例 程 。 

(3) 外 部 中 断 的 处 理 , 即 外 部 中 断 处 理 函 数 ExternalInput 的 实现 过 程 。 在 ExternalInput 
函数 中 ,除了 要 执行 中 断 服 务 例 程 外 ,还 需要 为 Linux PowerPC 进入 中 断 进行 必要 的 准备 工 
作 ,如 保存 一 些 系统 寄存 器 ,设立 中 断 堆 栈 等 。ExternalInput 图 数 返 回 时 , Linux PowerPC 根 
据 中 断 执 行 的 结果 ,决定 是 否 需 要 进行 进程 调度 。 

Linux 的 外 部 中 断 处 理 系统 与 进程 调度 紧密 相连 。 在 介绍 Linux PowerPC 外 部 中 断 处 理 
系统 的 三 大 组 成 部 分 之 前 ,我 们 需要 首先 介绍 PowerPC E500 内 核 的 外 部 中 断 。 

下 文 以 MPC8541 处 理 器 为 例 ,说 明 外 部 中 断 处 理 程序 的 流程 和 一 些 与 外 部 中 断 有 关 的 
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基本 概念 ,之 后 介绍 Linux PowerPC 如 何 使 用 MPC8541 处 理 器 提供 的 这 些 功 能 实现 外 部 中 断 
处 理 系 统 。 

本 章 内 容 较 为 复杂 ,对 PowerPC 处 理 器 中 断 系 统 和 Linux 系统 没有 一 定 基 础 的 读者 ,会 
和 党 得 难以 理解 。 和 希望 读者 坚持 阅读 一 遍 本 章 的 全 部 内 容 , 再 经 过 多 次 反复 ,彻底 理解 本 章 的 全 
部 内 容 , 而 不 要 半途 而 废 。 


6.1 MPC8541 处 理 器 的 中 断 系 统 


MPC8541 处 理 硕 的 中 断 系统 由 两 部 分 组 成 ,一 是 E500 内 核 的 中 断 及 异常 的 处 理 ;二 是 
OpenPIC 中 断 控 制 胡 。 
在 E500 内 核 中 ,包含 两 种 可 以 暂时 中 止 处 理 器 运行 当前 指令 的 事件 ,中 断 和 异常 。 其 
中 ,异常 是 由 E500 内 核 产 生 的 ,如 出 现 非法 指令 ,访问 存储 器 时 出 现 TLB Miss 等 情况 ;而 中 
断 通 过 处 理 器 内 核 的 外 部 引 脚 ,如 int# ,cint# 和 mcp 信号 有 效 时 ,产生 的 事件 。 
从 广义 上 说 ,在 E500 内 核 中 ,中 断 也 是 异常 的 一 种 。 而 从 狭义 上 说 ,PowerPC 体系 的 中 
断 特 指 处 理 器 内 核 的 int# ,cint# 和 mcp 信号 有 效 时 ,产生 的 异常 。 为 明晰 起 见 ,本 书 对 中 断 
和 异常 重新 进行 定义 。 
在 本 书 中 ,由 处 理 器 内 核 产生 的 中 断 事 件 定义 为 异常 ,而 由 int# ,cint# 和 mcp 信号 有 效 
时 产生 的 异常 称 为 外 部 中 汤 。 在 E500 内 核 中 ,中 断 和 异常 都 可 以 引发 处 理 器 进行 状态 切换 。 
当 这 类 事件 发 生 后 ,PowerPC 系统 将 停止 目前 正在 执行 的 代码 , 而 转 去 执行 中 断 或 者 异常 服 
务 程 序 。 
E500 内 核 中 ,外 部 中 断 分 为 Noncritical 中 断 、Critical 中 断 和 Machine Check 中 断 , 这 些 中 
断 由 E500 内 核 的 输入 信号 触发 。 
int 间 、cint 并 、core _fault _in# 信 号 为 低 时 ,ES00 内 核 触发 Noncritical 中 断 或 者 Critical 中 
断 ;mcp 信号 出 现 上 升 沿 时 ,E500 内 核 触发 Machine Check 中 断 。 在 E500 内 核 中 ,中断 的 处 
理 顺序 分 别 为 mcp# 类 中 断 、cint# 类 中 断 、int# 类 中 断 。 
e int# 信 号 有 效 时 ,表示 有 外 部 中 断 事件 发 生 。 在 PQIII 系列 的 处 理 器 中 ,这 些 外 部 中 断 
由 中 断 控 制 侨 PIC(Programmable Interrupt Controller) 管 理 。 这 些 外 部 中 断 包 括 外 部 中 
困 引 脚 IRQ 引发 的 中 断 、PCI 总 线 控 制 器 引发 的 中 断 、TSEC 中 断 控制 器 以 及 所 有 
E500 内 核 之 外 的 设备 引发 的 中 断 。 当 MSR 寄存 器 的 EE 位 为 1 且 int# 信 号 有 效 时 ， 
ES00 内 核 将 处 理 这 些 中 断 。 
e@ cint# 信 号 有 效 时 ,表示 有 critical 中 断 事件 发 生 。cint# 的 中 断 源 与 int# 一致 ,都 是 来 
自 中 靳 控制 絮 PIC。 在 PIC 中 有 一 组 寄存 器 IDRn, 当 IIDRn 的 CI 位 为 1 时 ,表示 相 
应 的 中 断 信息 使 用 int# 信 号 发 向 E500 内 核 ,为 1 时 表示 相应 的 中 断 信 息 使 用 cint# 信 
号 发 网 E500 内 核 。 当 MSR 寄存 器 的 CE 位 为 1 且 cint# 信 号 有 效 时 ,E500 内 核 将 处 
理 这 些 中 断 。 
@ mcp# 出 现 上 升 沿 时 ,表示 有 Machine Check 中 断 事 件 发 生 。 当 MSR 寄存 器 的 ME 位 
为 1 并且 mcp# 信 号 有 效 时 ,MPC8541 将 处 理 此 中 断 。 
® core _ fault _ in# 信 号 有 效 时 ,表示 系统 总 线 进行 读 写 操作 时 发 生 错 误 。 此 时 软件 可 以 
通过 设置 ,由 Machine Check 中 断 处 理 程序 处 理 这 类 错误 。 
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E500 内 核 的 异常 是 由 E500 内 核 内 部 的 事件 引发 ,如 下 所 示 。 

e E500 内 核 执行 非法 指令 时 会 产生 异常 。 一 般 来 说 ,编译 器 所 编译 出 来 的 指令 都 是 合法 
指令 。 但 是 ,有 时 因为 存放 程序 的 DDR 或 者 FLASH 的 硬件 设计 或 者 配置 不 正确 ,而 
导致 在 处 理 器 执行 程序 时 ,所 获得 的 指令 为 非法 指令 。 

e@e E500 内 核 在 用 户 模式 下 ,访问 只 有 在 超级 模式 下 才能 访问 的 寄存 器 。 

e@ 访问 ES00 内 核 中 未 定义 的 特殊 寄存 器 。 

e 访问 未 定义 的 虚 存 空间 ,或 者 非 对 界 的 访问 。 

@ E500 内 核 执 行 sc,tw 或 者 twi 指令 时 ,引发 的 系统 调用 和 trap 中 断 。 

E500 内 核 规 定 了 异常 的 优先 权 , 优 先 权 高 的 异常 可 以 中 断 低 优先 权 的 异常 处 理 程序 ;而 

低 优 先 权 的 异常 需要 等 待 高 优先 权 的 异常 处 理 程 序 执行 完毕 。E500 内 核 中 异常 的 优先 权 如 
下 所 示 : 

e HRESET。 不 同 于 603E 内 核 ,E500 内 核 没有 将 HRESET# 信号 有 效 时 引发 的 各 种 操 
作 定 义 为 异常 ,在 E500 内 核 中 ,没有 为 复位 异常 准备 专门 的 中 断 向 量 。 

@ Machine Check 异常 。 机 妖 自 检 异 常 。 

e@ Critical Interrupt 异常 。 该 异常 由 中 断 控制 器 PIC 产生 ,用 于 外 部 中 断 ,使 用 cint# 信 号 
将 中 断 信息 传递 给 E500 内 核 。 

@ Debug Interrupt 异常 。 该 异常 使 用 E500 内 核 的 Critical Interrupt 的 中 断 向 量 , 用 于 系 
统 调试 。 

@ External Input 中 断 。 该 异常 由 中 断 控 制 器 PIC 产生 ,用 于 外 部 中 断 ,使 用 int# 信和 号 将 
中 断 信息 传递 给 E500 内 核 。 在 本 书 中 ,该 异常 被 称 作 外 部 中 断 。 

@ ITLB Miss 异常 。 当 处 理 器 进行 取 指 操作 时 ,所 访问 的 指令 地 址 没有 在 TLB0 和 TLBI1 
中 命中 时 E500 内 核 产生 此 异常 。 

e@ ISI 异常 。 在 用 户 模式 时 ,访问 在 超级 模式 下 才能 访问 的 内 存 空间 ,以 及 因为 指令 预 取 
部 件 访问 的 字 节 序 与 定义 的 字 节 序 与 不 一 致 时 ,引发 该 异常 。 

@ Program 异常 。 当 E500 内 核 执 行 非 法 指令 ,或 者 E500 内 核 在 用 户 模式 下 ,执行 在 超级 
模式 下 才能 使 用 的 指令 或 者 tw 指令 满足 条 件 时 ,E500 内 核 将 会 产生 此 类 异常 。 

e DTLB miss 异常 。 当 E500 内 核对 数据 空间 进行 读 取 操 作 , 所 访问 的 数据 地 址 没有 在 
TLB0 和 TLBI1 中 命中 时 ,处理 需 产生 此 异常 。 

e DSI 异常 。 在 E500 内 核 处 于 用 户 模式 时 ,访问 在 超级 模式 下 才能 操作 的 内 存 空间 时 ， 
或 者 数据 访问 的 字 节 序 与 定义 的 字 节 序 与 不 一 致 而 引发 的 异常 。 

@ System call。ES00 内 核 执 行 sc 指令 时 ,将 产生 此 异常 。Linux PowerPC 使 用 这 条 指令 
实现 系统 调用 功能 。 

@ Decrementer 异常 。 由 E500 内 核 的 DEC 寄存 器 产生 的 定时 异常 ,Linux PowerPC 使 用 
此 异常 实现 系统 时 钟 中 断 。 

提醒 读者 注意 ,E500 内 核 在 进入 异常 处 理 程序 中 ,MSR 寄 仔 器 的 EE 位 将 被 屏蔽 。 因 此 

在 一 般 情 况 下 ,异常 处 理 程序 不 会 被 外 部 中 断 切 换 。 有 时 异常 处 理 程 序 会 选择 合适 的 时 机 使 
能 EE 位 ,允许 外 部 中 断 。 此 时 异常 处 理 程序 需要 保证 ,其 所 需 的 中 断 堆 栈 已 经 建立 完毕 ,该 
程序 使 用 的 关键 数据 已 经 保存 在 中 断 堆 栈 中 。 

一 般 来 说 ,E500 内 核 在 执行 异常 处 理 程序 时 ,不 会 产生 新 的 异常 。 因 此 系统 程序 员 在 编 
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号 异常 处 理 程序 时 ,需要 注意 不 能 在 异常 处 理 程序 中 ,访问 使 用 TLB0 映射 的 物理 地 址 空间 。 
访问 TLBO 映射 的 物理 地 址 空间 时 ,E500 内 核 有 可 能 产生 TLB Miss 异常 。 在 基于 E500 内核 
的 Linux PowerPC 中 ,异常 处 理 程序 所 使 用 的 程序 空间 和 数据 空间 都 是 使 用 TLBI1 映射 的 。 
在 603E 内 核 中 ,进入 异常 处 理 程序 时 ,MMU 将 会 被 自动 关闭 ,不 会 产生 TLB Miss 异常 。 因 
此 在 603E 内 核 中 可 以 使 用 TLB 映射 中 断 及 异常 处 理 程序 的 地 址 空间 。 虽 然 如 此 ,在 基于 
603E 内 核 的 Linux PowerPC 中 ,还 是 使 用 BAT 映射 中 汤 及 异常 处 理 程 序 的 地 址 空间 。 


6.1.1 ES00 内 核 的 中 断 向 量 


中 断 向 量 是 指 中 断 或 者 异常 程序 的 人 口 地 址 。 基 于 603E 内 核 的 PowerPC 处 理 器 ,中 断 
问 量 为 一 个 固定 的 物理 地 址 。 在 这 些 处 理 器 进入 中 断 和 异常 处 理 程序 时 ,MMU 将 会 被 自动 
关闭 ,因此 603E 内 核 可 以 使 用 固定 的 物理 地 址 作为 中 断 向 量 。 

而 E500 内 核 在 进入 中 其 和 异常 处 理 程序 时 ,不 能 关闭 MMU , 因此 不 能 使 用 物理 地 址 作 
为 中 断 向 量 ,而 应 使 用 IVPR 和 IVOR 寄存 器 保存 相应 的 中 断 向 量 。 

对 于 E500 内 核 ,中断 处 理 程序 的 人口 地 址 为 虚拟 地 址 。Linux PowerPC 使 用 E500 内 核 
的 地 址 空间 0 保存 这 些 虚 拟 地 址 。 这 是 因为 E500 内 核 在 进入 中 断 和 异常 处 理 程序 时 ,将 使 
用 地 址 空间 0 空间 ,有关 E500 内 核 地 址 空间 的 详细 介绍 见 本 书 的 3.1.1 节 。 

基于 ES00 内 核 的 Linux PowerPC 使 用 TLB1 的 Entry0 ,对 这 些 中 断 向 量 进行 虚实 地 址 映 
射 ,因为 使 用 TLBI1 的 Entry 进行 映射 的 虚拟 地 址 空间 将 不 会 被 替换 。 

如 果 使 用 TLB0 映射 这 些 中 断 向 量 ,操作 系统 在 进入 TLB Miss 异常 处 理 程序 时 ,如 果 再 
次 发 生 中 断 向 量 所 在 的 虚拟 地 址 没有 在 TLB0 中 的 情况 ,会 再 次 产生 TLB Miss 异常 ,此 时 
TLB Miss 异常 会 出 现 嵌 套 ,从 而 导致 整个 操作 系统 角 演 。 

在 E500 内 核 中 ,使 用 IVPR 和 IVORx 寄存 器 共同 确定 中 断 或 者 异常 程序 的 人 口 地 址 。 
其 中 ,IVPR 寄存 器 提供 中 断 程序 人 口 地 址 的 第 0 一 15 位 ,IVORx 提供 中 断 程 序 人 口 地 址 的 第 
16 一 27 位 ,而 中 断 程序 的 人 口 地 址 的 第 28 一 31 位 为 0。IVORx 与 异常 的 对 应 关系 如 表 6-1 
所 示 。 


表 6-1 E500 内 核 的 中 断 向 量 表 


IVORs 异常 类 型 IVORs 异常 类 型 
IVORO Critical Interrupt IVOR11 Fixed-interval timer interrupt 
IVOR1 Machine Check IVOR12 Watchdog timer interrupt 


IVOR2 DS Data TLB error 

IVOR3 ISI Instruction TLB error 

IVOR5 Alignment 保留 

oR SpE APU weve 

IVOR7 Embedded floating-point data exception 
IVOR8 Embedded floating-point round exception 
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本 章 将 重点 介绍 External Input 异常 , 即 E500 内 核 的 外 部 中 断 。 
6.1.2 外 部 中 断 处 理 机 制 


E500 内 核 的 外 部 中 断 由 三 部 分 组 成 ,分 别 为 Machine Check 异常 、Critical Interrupt 异常 
和 External Input 异常 。 在 E500 内 核 中 ,Machine Check 异常 采用 边沿 触发 (edge-triggered ) ， 
而 Critical Interrupt 异常 和 External Input 异常 使 用 电 平 触发 (level-triggered)。 下 文 以 
MPC8541 处 理 器 为 例 , 说 明 PQIII 处 理 絮 的 中 断 控制 器 PIC。 

在 PIC 中 ,MPC8541 处 理 需 设置 了 一 些 寄存 器 位 ,将 中 断 上 映射 为 电 平 或 者 边 汽 触发 ,但 这 
些 中 断 触发 条 件 需要 以 电 平 的 形式 传递 给 E500 内 核 。E500 内 核 在 进入 中 断 和 中 断 返 回 时 都 
要 进行 程序 上 下 文 的 切换 。 频 繁 的 中 断 将 会 极 大 影响 处 理 器 的 效率 。 

在 E500 内 核 中 ,一 个 完整 的 中 断 处 理 流程 如 下 : 

1) ES00 内 核 捕捉 到 硬件 中 断 信号 cint# 、int# 或 者 mcp。 

2) E500 内 核 在 捕捉 到 硬件 中 断 信号 后 ,需要 做 一 些 必要 的 准备 ,之 后 才 可 以 进入 外 部 中 
断 处 理 程序 。 这 些 准 备 带 来 了 一 些 外 部 中 断 处 理 的 延 时 ,这 些 延 时 不 可 避免 。 首 先 E500 内 
核 清 除 在 指令 完成 队列 CQ 中 的 所 有 指令 ,除了 以 下 三 种 指令 . 

e 在 CQ0 中 的 对 保护 区 域 (Guarded) 的 读 操作 指令 。 

@ 对 禁止 Cache 内 存 区 域 操 作 的 指令 。 

@ stwcx. 指令 。 

这 些 指 令 执行 完毕 后 ,E500 内 核 才 可 以 进入 中 断 模式 。 在 清除 CQ 后 ,E500 中 世 处 理 模 
块 从 相应 的 中 断 癌 量 处 预 取 指令 到 IQ 中 。 这 些 中 断 的 预 处 理 过 程 ,其 主要 目的 是 为 中 断 处 
理 程 序 准 备 一 个 “干净 "的 空间 ,保证 中 断 处 理 程序 与 被 中 岂 程 序 之 间 不 相互 干扰 。 由 此 可 见 ， 
E500 内 核 进 入 中 断 处 理 程序 之 前 , 隐 式 地 进行 了 指令 同步 操作 。 

3) E500 内 核 将 中 断 程序 的 返回 地 址 保存 在 SRRO 中 ;将 程序 的 MSR 寄存 器 保存 在 
SRR1 中 。 对 于 一 些 特殊 的 异常 ,如 DSI、ISI 和 TLB Miss 等 ,E500 内 核 还 会 自动 保留 E500 
内 核 的 其 他 一 些 寄存 器 。 

4) E500 内 核 将 MSR 寄存 器 的 CE,ME,DE 位 保留 ,其 他 位 全 部 清 零 。 因 此 E500 内 核 在 
进行 外 部 中 断 处 理 程序 时 ,仍然 可 以 被 Critical 中 断 ,Machine check 中 断 和 调试 中 斯 程序 重 
入 ,但 是 不 能 被 外 部 中 断 立 即 重 入。 在 Linux PowerPC 中 ,外 部 中 断 处 理 程序 会 选择 合适 时 机 
使 能 MSR 寄存 器 的 EE 位 ,以 支持 外 部 中 断 的 重 入 。 

5) MSR 中 的 PR 位 ,EE 位 ,IS 和 DS 位 将 被 清除 ,因此 E500 内 核 在 超级 用 户 模 式 中 , 运 
行 中 断 处 理 程序 时 ,对 程序 空间 和 数据 空间 的 访问 都 要 在 地 址 空间 0 上 进行 。 

6) E500 内 核 将 根据 TVPR,IVOR4 寄存 胡 确 定 中 断 向 量 , 进 行 中 渐 程 序 的 执行 。 

7) 在 中 断 处 理 程 序 执行 完毕 后 ,使 用 rfi 指令 进行 中 断 返 回 。rfi 指令 将 从 SRR1 寄存 器 
中 恢复 MSR 寄存 器 的 值 ,并 从 SRR0 寄存 器 中 获得 程序 返回 地 址 。 本 ii 指令 在 进行 程序 正文 
切换 之 前 还 会 进行 指令 和 数据 的 同步 ,还 给 被 中 断 的 程序 一 个 “干净 ”的 空间 ,之 后 E500 内 核 
进行 中 断 返 回 。 


6.1.3 ”外 部 中 断 的 符 套 


E500 内 核 提供 了 以 下 多 种 机 制 用 于 处 理 中 断 嵌 套 : 
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e E500 内 核 为 不 同 种 类 的 外 部 中 断 设 置 了 屏蔽 位 ,可 以 顺序 地 处 理 不 同 级 别 的 外 部 
中 断 。 

e@ E500 内 核 为 不 同 种 类 的 中 断 (Noncritical 中 断 ,Critical 中 斯 ,Machine Check 中 断 ) 设 置 
了 不 同 的 寄存 器 组 ,保存 相应 的 状态 。 

e E500 内 核 在 进入 外 部 中 断 处 理 程序 时 ,设置 中 断 屏蔽 位 防止 同类 外 部 中 断 的 重信。 

在 一 个 操作 系统 中 ,如果 外 部 中 断 处 理 程 序 可 以 严格 执行 同步 规则 ,并 且 不 可 以 被 同 级 中 
断 姐 套 , 那 么 中 断 处 理 程序 的 处 理 将 相对 简单 。 然 而 ,操作 系统 有 时 需要 实现 中 断 的 拉 套 。 

如 对 于 外 部 中 斯 的 处 理 ,E5s00 内 核 只 有 一 个 中 断 引 脚 int# ,响应 不 同 种 类 的 外 部 中 断 。 
这 些 外 部 中 断 源 并 不 相同 ,要 求 的 响应 时 间 和 响应 级 别 也 不 相同 。 为 此 ,操作 系统 需要 实现 外 
部 中 断 的 般 套 处 理 。 对 于 系统 中 的 一 些 慢 速 设备 ,如 UART` 键 盘 等 ,其 中 断 处 理 程序 需要 花 
费 相 对 较 长 的 时 间 。 因 此 在 一 个 操作 系统 中 ,这 些 设备 的 中 断 处 理 程序 应 该 可 以 被 其 他 快速 
设备 的 外 部 中 断 处 理 程序 重 入 。 

E500 内 核 执 行 外 部 中 断 处 理 程序 时 ,会 自动 屏蔽 所 有 其 他 的 外 部 中 断 。 如 果 外 部 中 断 处 
理 程序 支持 中 断 的 舱 套 , 则 需要 选择 合适 的 时 机 将 外 部 中 断 重 新 使 能 。 在 此 之 前 ,这 些 支持 中 
断 挫 套 的 处 理 程序 ,需要 使 用 中 断 堆 栈 或 者 其 他 方式 保存 临时 变量 和 寄存 器 。 

Linux 系统 使 用 中 断 堆栈 保留 这 些 中 断 现场 ,这 样 做 的 关键 问题 是 如 何 组 织 中 断 的 堆栈 
结构 。 因 为 操作 系统 在 执行 应 用 程序 ,系统 程序 和 中 断 处 理 程序 的 过 程 中 都 可 以 发 生 中 断 。 
这 些 不 同 的 中 断 要 求 系 统 软件 必须 合理 地 设置 中 断 栈 段 。 

操作 系统 采用 两 种 方式 进行 中 断 栈 段 的 处 理 , 一 种 是 为 外 部 中 断 设 立 独立 的 堆栈 ,与 应 用 
程序 .系统 程序 的 栈 段 独立 ; 另 一 种 是 将 中 断 堆 栈 依附 在 操作 系统 的 核心 堆栈 中 。 但 是 无 论 操 
作 系 统 采 用 哪 种 方式 的 堆栈 设置 ,都 需要 防止 中 断 栈 段 的 溢出 。 

对 于 中 汤 频 繁 的 应 用 ,操作 系统 需要 限制 中 断 的 多 重 租 套 。 对 此 类 应 用 ,系统 程序 员 可 以 
采用 软 硬 件 结合 的 方法 处 理 , 如 可 以 在 硬件 中 设置 中 断 阅 值 寄存 器 ,将 多 次 中 断 进 行 计 数 , 当 
计数 大 于 该 国 值 后 ,统一 产生 一 次 中 断 事 件 ; 在 软件 中 断 处 理 程序 中 ,结合 查询 一 次 处 理 多 个 
中 其 事件 后 ,再 重新 使 能 外 部 中 断 屏 项 位 。 

为 支持 中 断 向 套 ,Linux 系统 的 外 部 中 断 处 理 程序 书写 得 较为 复杂 。 不 同 的 操作 系统 对 
中 断 苔 套 的 实现 也 不 尽 相 同 , 如 Vxworks 系统 为 中 断 处 理 程序 设置 了 单独 的 中 断 堆栈 , 而 
Linux PowerPC 可 以 将 中 断 堆 栈 依 附 在 进程 的 核心 堆栈 中 ,也 可 以 采用 独立 的 中 断 堆 栈 模式 。 
目前 ,基于 32 位 PowerPC 处 理 器 的 Linux PowerPC, 只 能 将 中 断 推 栈 依 附 在 进程 的 核心 堆 
栈 中 。 


6.1.4 ”MPC8541 的 外 部 中 断 


MPC8541 处 理 融 采用 中 断 控 制 器 PIC 管理 所 有 的 外 部 中 断 源 , 共 支持 12 个 外 部 中 断 源 
和 21 个 内 部 中 断 源 。 其 中 ,12 个 外 部 中 断 源 来 自 MPC8541 处 理 器 的 外 部 引 脚 IRQ[0:11]， 
这 些 引 脚 可 以 与 MPC8541 芯片 设备 的 中 断 信号 互联 ,如 以 太 网 Phy 的 中 断 信号 ,Flash 的 中 
断 信 号 及 其 一 些 自 定 义 的 中 断 信号 ,21 个 内 部 中 断 源 来 自 MPC8541 内 部 的 SoC(System-on- 
Chip) ,如 PCI 总 线 控制 嚣 中断、TSEC 中 断 、CPM 等 一 系列 中 断 源 。MPC8S41 内 部 中 断 源 如 
表 6-2 所 示 。 
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表 6-2 MPC8541 的 内 部 中 断 源 


处 理 来 自 加 密 引 擎 的 中 断 , 在 MPC8541 中 包 
含 一 个 硬件 加 密 引 擎 


30 CPM 处 理 来 自 CPM 的 中 汤 


29 Security 


0 处 理 来 自 L2 Cache 的 中 断 

1 处 理 来 自 总 线 共享 一 臻 性 模块 的 中 汤 

2 处 理 来 自 DR 控制 器 的 中 断 

3 处 理 来 自 局 部 总 线 控制 器 的 中 断 

如 来 DMA 拓 负电 新 ， 在 E500 由 
; 中 支持 4 个 独立 的 DMA 控制 器 

; 

证 
一 处 理 来 自 TSEC1 控制 器 的 中 断 , 当 TSECI 发 
14 送 、 接 收 数据 及 其 在 发 送 / 搂 收 数据 过 程 中 出 现 
五 处 理 来 自 TSEC1 控制 器 的 中 汤 , 当 TSEC2 发 
20 送 ,接收 数据 及 其 在 发 送 /接收 数据 过 程 中 出 现 
27 处 理 来 自 PC 总 线 控制 器 的 中 断 

28 处 理 来 自 Performance monitor 的 中 断 


MPC8541 处 理 器 设置 了 一 系列 寄存 器 管理 内 部 及 外 部 中 断 源 , 这 组 寄存 器 与 OpenPIC 
和 MPIC 中 断 控制 器 基本 兼容 。 在 MPC8541 处 理 器 中 ,设置 了 21 个 内 部 中 断 号 与 21 个 内 部 
中 断 源 对 应 ,12 外 部 中 断 号 与 外 部 中 断 源 相 对 应 。 


6.1.5 ”MPC8541 中 断 控制 器 PIC 的 寄存 器 


在 MPC8541 处 理 器 的 中 斯 控制 器 PIC 中 ,设置 了 一 系列 寄存 器 。 其 中 有 些 寄存 器 采用 
存储 器 映像 方式 进行 寻 址 ,可 以 被 MPC8541 处 理 器 通过 存储 器 访问 指令 进行 访问 ;有 些 寄存 
髓 属于 中 断 控制 器 PIC 中 的 内 部 寄存 器 ,只 能 被 中 断 控制 器 PIC 访问 ,程序 员 不 能 使 用 存储 
器 指令 访问 这 些 寄存 器 ,这 些 寄存 人 舌 对 软件 透明 。 . 

MPC8541 处 理 器 的 中 断 控 制 器 与 OpenPIC、MPIC 中 断 控制 句 基 本 兼容 。OpenPIC 中 断 
控制 器 由 AMD 和 Cyrix 联合 提出 ,其 设计 目标 是 对 多 核 处 理 右 的 外 部 中 断 进 行 管理 ,与 此 类 
似 的 标准 还 有 Intel 的 APIC 中 断 控制 器 。 虽 然 OpenPIC 中 断 控制 玫 的 设计 目标 主要 是 针对 
多 核 处 理 器 ,但 是 仍然 可 以 管理 单 核 处 理 器 的 外 部 中 断 。 

MPIC 中 断 控 制 器 是 IBM 为 自己 的 pSeries 服务 器 量 身 订 制 的 ,MPIC 中 断 控 制 器 与 
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OpenPIC 中 断 控制 器 大 同 小 异 。 在 Linux PowerPC 中 ,IBM 实现 了 基于 MPIC 中 断 控 制 器 的 
中 断 处 理 程序 , 并 鼓励 采用 OpenPIC 中 断 控制 器 的 PowerPC 处 理 器 (实际 上 , 主要 针对 
Freescale 和 AMCC) 在 系统 软件 一 级 ,与 IBM 的 MPIC 中 断 控制 器 兼容 。 

在 MPC8541 处 理 器 中 ,中断 控制 器 PIC 的 寄存 器 由 三 部 分 组 成 ,分 别 是 Interrupt Source 
Configuration Registers、 Per Processor Registers 和 Global Registers。 

1. Interrupt Source Configuration Registers 

Interrupt Source Configuration Registers 由 IIVPRO~31\IIDRO~31.EIVPRO~11,EIDRO 
一 11 寄存 器 组 成 。 其 中 ,IIVPRx(Internal Interrupt x vector/priority Register) 和 IIDRx( Inter- 
nal Interrupt x destination/on Register) 寄存 器 组 与 MPC8541 的 内 部 中 断 号 一 一 对 应 , 而 
EIVPRx(External Interrupt x vector/priority Register) 和 EIDRx(External Interrupt x destina- 
tion/on Register) 寄 存 右 与 MPC8541 的 外 部 中 断 号 一 一 对 应 。 

IIVPR0 一 31 寄存 器 组 可 读 写 , 共 由 32 个 寄存 器 组 成 ,其 主要 数据 位 描述 如 下 ; 


MSK A RSV1 P RSV2 ~ PRIORITY VECTOR 
第 0 位 第 1 位 第 2 一 7 位 第 8 位 第 9~11 人 位 第 12~15 位 第 16~~31 位 


e MSK 位 , 读 写 。 该 位 为 1 表示 相应 的 内 部 中 断 源 被 屏蔽 。 

eA 位 ,只 读 。 该 位 为 1 表示 相应 的 内 部 中 断 源 有 效 ,为 0 表示 无 效 。 

eP 位 , 谈 写 。 该 位 为 1 表示 相应 的 内 部 中 断 源 为 高 电 平 有 效 。 提 醒 读 者 注意 ,该 位 为 0 
时 ,并 不 表示 相应 的 内 部 中 断 源 为 低 电 平 有 效 。 因 为 在 中 断 控 制 器 PIC 中 ,所 有 的 内 部 
中 断 源 只 能 是 高 电 平 有 效 。 因 此 该 位 为 0 时 ,表示 当前 内 部 中 断 源 被 屏蔽 。 

e PRIORITY 字段 , 读 写 。 该 字段 描述 内 部 中 断 源 的 优先 级 。 该 字段 共有 4 个 有 效 位 ,可 
以 摘 述 15 种 中 断 优先 级 。 该 字段 的 值 越 大 表示 相应 的 内 部 中 断 源 的 优先 级 越 高 ,该 字 
段 为 0 表示 相应 的 内 部 中 断 源 被 屏蔽 。 

e VECTOR 字段 , 读 写 。 该 字段 用 来 存放 与 相应 内 部 中 断 号 对 应 的 硬件 中 断 号 。 该 字段 
共有 16 个 有 效 位 ,可 以 表示 65536 种 硬件 中 断 号 。 

IIDR0 一 31 寄存 器 组 可 读 写 , 共 由 32 个 寄存 器 组 成 。 主 要 数据 位 如 下 所 示 


EP CI RSV PO 
第 0 位 第 1 位 第 2 一 30 位 第 31 位 


e EP 位 , 谈 写 。 该 位 为 0, 表 示 相 应 的 中 断 源 ,由 中 断 控 制 器 PIC 通过 int# 信 号 传递 给 处 
理 带 内 核 ; 该 位 为 1 表示 该 中 断 源 将 旁 路 中 断 控制 器 PIC, 而 从 MPC8541 的 外 部 引 脚 
IRQ_ OUT# 输 出 。 一 个 系统 使 用 片 外 中 断 控 制 器 时 ,可 以 采用 这 种 方式 ,将 所 有 的 中 
断 源 统一 从 IRQ_ OUT# 输 出 ,并 由 片 外 中 断 控 制 器 处 理 , 最 后 通过 IRQ0 引 脚 将 中 断 
言 息 送 往 E500 内 核 。 

e CI 位 , 读 写 。 该 位 为 0, 表示 该 中 断 源 将 由 中 断 控 制 器 PIC 通过 int# 信 号 传递 给 E500 
内 核 ; 该 位 为 1 表示 该 中 断 源 将 由 中 断 控制 器 PIC 通过 cint# 信和 号 传递 给 处 理 器 内 核 。 
此 位 与 EP 位 不 能 同时 为 1。Linux PowerPC 一 般 使 用 int 井 信号 将 中 断 事件 传递 给 
E500 内 核 。 

e P0 位 ,只 读 。 该 位 在 MPC8541 处 理 器 中 恒 为 1, 表 示 该 中 断 源 将 由 CPU0 处 理 。 在 
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MPC8541 处 理 器 中 只 有 一 个 CPU ,因此 该 位 只 能 为 1。 

MPC8541 处 理 器 中 还 有 两 组 寄存 器 ,EIVPR0 一 11 和 EIDR0 一 11 寄存 器 ,这 两 组 组 寄存 
器 用 来 描述 MPC8541 处 理 器 的 12 个 外 部 中 断 源 。 

EIVPR0 一 11 寄存 器 的 含义 与 IIVPR0 一 31 寄存 器 组 基本 相同 : 

MSK A RSV1 了 S PRIORITY VECTOR 
第 0 位 第 1 位 第 2 一 7 位 第 8 位 第 9 位 第 12~15 位 第 16~31 位 

与 IIVPR 寄存 器 组 相 比 ,EIVPR0 一 11 寄存 器 组 中 有 一 个 S 位 ,该 位 为 0 时 表示 相应 的 内 
部 中 断 源 采用 边界 触发 方式 ,为 1 时 表示 相应 的 内 部 中 断 源 采用 电 平 触发 方式 。 这 组 寄存 融 
的 P 位 与 IIVPR 寄存 器 组 中 的 P 位 定义 不 同 , 当 了 位 为 0 时 ,表示 相应 的 外 部 中 断 源 为 低 电 
平 有 效 ; 为 工时 表示 相应 的 外 部 中 断 源 为 高 电 平 有 效 。EIDR0 一 11 寄存 器 与 IDR0 一 31 寄存 
器 的 定义 完全 相同 ,此 处 不 再 叙述 。 

在 MPC8541 处 理 器 中 ,内 部 中 断 源 或 者 外 部 中 断 源 都 与 一 个 IIVPR 或 者 EIVPR 寄存 表 
相对 应 。 这 些 寄存 器 中 的 VECTOR 字段 ,保存 了 这 些 内 部 或 者 外 部 中 断 源 的 硬件 中 断 号 。 
MPC8541 处 理 器 进行 中 断 响 应 周期 时 ,会 得 到 引发 这 些 外 部 中 断 的 硬件 中 断 号 ,从 而 判断 出 
是 哪 一 个 中 断 源 引发 的 中 断 事件 。 - 

在 一 个 实际 的 系统 中 ,MPC8541 处 理 器 可 以 根据 外 部 中 断 源 的 实际 情况 决定 是 采用 高 电 
平 , 低 电 平 还 是 采用 边界 触发 。 一 般 来 说 ,在 设计 中 多 使 用 电 平 触发 方式 。 

2. Per Processor Registers 

Per Processor Registers 共 由 以 下 几 个 寄存 融 组 成 : 

(1) IPIDR(Interprocessor Interrupt Dispatch Register)0 一 3 寄存 器 。 该 组 寄存 器 用 来 癌 其 
他 CPU 发 送 IPI 中 断 。 在 MPC8541 处 理 器 中 ,只 有 一 个 CPU ,因此 该 寄存 器 中 只 有 第 31 位 
P0 有 效 。 对 此 位 写 1 将 引发 中 断 。 这 组 寄存 器 可 以 用 来 实现 多 处 理 器 内 核 之 间 的 通信 。 

这 组 寄存 器 也 可 以 用 来 产生 一 些 实时 信号 ,实时 信号 是 与 Linux 系统 中 的 信号 机 制 相对 
而 言 的 。Linux 系统 的 信和 号 机 制 并 不 能 保证 一 个 进程 产生 的 信号 能 够 被 立即 处 理 , 这 些 信 号 
只 能 在 中 断 或 者 异常 处 理 程序 结束 后 处 理 , 因 此 这 种 信号 机 制 不 能 满足 一 些 处 理 妖 系统 所 需 
要 的 实时 性 。 

(2) CTPR(Processor Current Task Priority Register) 寄 存 器 。 该 寄存 器 存放 当前 CPU 中 
运行 任务 的 级 别 。 当 CPU 进行 中 断 响应 时 ,当前 中 断 的 优先 级 PRIORITY 字段 被 写 人 此 寄 
存 器 中 。 当 其 他 内 部 或 者 外 部 中 断 源 有 效 时 ,CPU 将 该 中 断 源 的 优先 级 PRIORITY 与 CPTR 
寄存 器 的 内 容 进行 比较 ,如 果 该 中 断 的 优先 级 别 较 大 , 则 中 断 当 前 CPU 中 运行 任务 ,处 理 该 中 

CPTR 寄存 器 中 的 TASKP 字段 可 以 表示 15 个 中 断 级 别 , 当 TASKP 字段 为 0xF 时 将 屏 
蔽 所 有 外 部 中 断 。 在 PowerPC 处 理 器 中 ,系统 程序 员 更 习惯 使 用 MSR 寄存 器 的 EE 位 屏蔽 
和 使 能 外 部 中 断 。 

(3) WHOAMI 寄存 器 。 该 寄存 器 用 来 存放 当前 CPU 的 ID 号 ,对 于 MPC8541 处 理 角 ,该 
寄存 器 的 值 为 0。 对 于 SMP 结构 的 处 理 器 ,该 寄存 器 可 以 协助 判断 当前 中 断 处 理 程 序 是 运行 
在 哪个 CPU 中 的 。 

(4) IACK(Interrupt Acknowledge Register) 寄存 器 。 该 寄存 器用 来 存放 当前 中 断 源 的 便 
件 中 断 号 ,是 E500 内 核 外 部 中 断 处 理 中 的 一 个 重要 的 寄存 器 。 当 MPC8541 处 理 器 对 此 寄存 
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合 进 行 读 操 作 时 ,将 启动 外 部 中 断 响应 周期 。 

(5) EOI(End of Interrupt Register) 寄 存 器 。 该 寄存 器 只 有 “EOI CODE” 字 段 有 效 ,对 此 
字段 写 入 0b0000 将 结束 当前 中 断 的 处 理 。 

3. Global Registers 

Global Registers 共 由 以 下 几 种 寄存 器 组 成 : 

(1) FRR(Feature Reporting Register) 寄 存 器 。 该 寄存 器 的 NIRQ 字段 表示 ,在 当前 处 理 
佣 中 ,一 共有 多 少 个 中 断 源 ;NCPU 字段 表示 在 当前 处 理 器 中 一 共有 多 少 个 CPU; 而 VID 字段 
确定 当前 中 断 控制 器 PIC 的 版 本 号 。MPC8541 处 理 器 的 NIRQ 字段 为 53 ,表示 在 该 处 理 器 
中 共 支 持 54 个 中 断 源 ,包括 12 个 外 部 中 断 源 和 32 个 内 部 中 断 源 (其 中 只 有 21 个 内 部 中 断 源 
被 MPC8541 处 理 器 使 用 )。 

(2) GCR(Global Configuration Register) 寄 存 器 。 该 寄存 器 的 RST 和 M 位 有 效 。 对 RST 
位 写 1 时 ,复位 中 断 控制 器 PIC, 当 复 位 完成 后 ,该 位 将 自动 清 零 。 

M 位 为 0 时 ,表示 当前 中 断 控制 器 PIC 被 旁 路 ,MPC8541 处 理 器 采用 中 断 控 制 器 PIC 的 
Pass-Through 模式 ,此 时 IRQ0 引 脚 检测 到 的 中 断 信息 将 直接 送 入 到 CPU。 

(3) IPIVPRn(IPI Vector/Priority Registers) 寄存 器 。 该 寄存 器 用 来 描述 IPI 中 断 的 属 
性 。 该 寄存 器 的 M 位 用 来 使 能 IPI 中 断 ;A 位 用 来 表示 当前 IPI 中 断 是 否 有 效 ;PRIORITY 
字段 用 来 描述 IPI 中 断 的 级 别 ; VECTOR 字段 用 来 表示 当前 的 IPI 中 断 向 量 。 其 于 E500 内 
核 的 SMP 处 理 器 使 用 PIR(Processor ID Register) 寄存 器 识别 当前 进程 是 运行 在 哪个 CPU 
中 的 。 

(4) SVR(Spurious Vector Register) 寄 存 嚣 。 中 断 控 制 器 PIC 支持 Spurious 中 断 , 该 寄存 
铭 存 放 Spurious 中 断 使 用 的 硬件 中 断 号 。 Spurious 中 断 的 产生 原因 是 因为 一 些 系 统 级 的 错误 
或 者 出 于 测试 的 考虑 ,在 以 下 几 种 情况 下 MPC8541 处 理 器 会 产生 Spurious 中 断 。 

e int# 信 号 有 效 之 后 ,如 果 处 理 器 没有 及 时 读 取 IACK 寄存 器 启动 中 断 响应 周期 ,相应 的 

中 断 源 失效 。 
e int## 信 号 有 效 后 ,如 果 处 理 器 没有 及 时 读 取 IACK 寄存 器 启动 中 断 响 应 周期 ,相应 中 断 
产 的 IIVPR 或 者 EIVPR 寄存 器 的 M 位 被 置 为 无 效 。 

e int## 信 号 有 效 后 ,但 是 在 处 理 器 没有 及 时 读 取 IACK 寄存 器 启动 中 断 响应 周期 。 

e CPTR 寄存 带 值 被 一 些 不 可 预料 的 操作 加 大 。 

e 在 没有 任何 中 断 源 有 效 时 ,系统 软件 读 取 IACK 寄存 器 启动 中 断 响应 周期 时 ,PowerPC 

处 理 需 也 会 产生 Spurious 中 断 。 

(5) MSGR0 一 3(Message Register) 寄 存 器 。 在 MPC8541 的 中 断 控 制 占 PIC 中 ,有 4 个 32 
位 的 Message 寄存 器 。 使 能 此 类 中 断后 ,向 这 些 Message 寄存 右 写 人 数据 将 产生 Messaging 中 
断 , 读 取 Message 寄存 器 或 对 中 断 状态 寄存 器 的 相应 位 写 1 后 ,将 清除 此 中 断 ,该 组 寄存 器 也 
可 以 用 来 实现 实时 信和 号。 

(6) PMMRs( Performance Monitor Mask Registers) 寄存 器 。 该 组 寄存 器 用 来 进行 性 能 分 
析 , 该 组 寄存 器 是 MPC8541 处 理 器 的 自 定义 寄存 器 ,OpenPIC 和 MPIC 中 断 控制 器 中 并 没有 
定义 该 类 寄存 器 。 

中 断 控 制 器 PIC 还 有 几 个 内 部 寄存 器 IPR,IS 和 IRR 寄存 器 。 此 组 寄存 器 只 能 由 中 断 控 
制 占 PIC 访问, 而 不 能 被 处 理 器 直接 访问 。 该 组 寄存 器 将 在 6.1.6 节 中 详细 探讨 。 
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6.1.6 ”MPC8541 的 外 部 中 断 处 理 过 程 


MPC8541 处 理 器 的 内 部 或 者 外 部 中 断 源 有 效 时 ,会 将 相应 的 中 断 信 号 传递 到 中 断 控 制 谷 
PIC 中 ,此 时 中 断 控制 器 PIC 会 进行 以 下 操作 ,如 图 6-1 所 示 。 

(1) MPC8541 处 理 器 首先 使 用 IPR( Interrupt int# cint# 
Pending Register) 寄 存 器 暂 存 所 有 有 效 的 内 部 及 外 一 
部 中 断 源 。IPR 寄存 器 是 中 断 控制 器 PIC 的 内 部 。 | ImervptRoue 
寄存 器 ,不 能 被 MPC8541 处 理 器 使 用 存储 器 指令 
访问 。 该 寄存 器 由 54 位 组 成 ,与 MPC8541 处 理 器 
的 内 部 和 外 部 中 断 源 一 一 对 应 。 当 MPC8541 处 理 
器 的 内 部 或 者 外 部 中 断 源 有 效 时 , IPR 寄存 器 的 相 epseeao 上 me | 
应 位 被 置 为 有 效 。 

(2) 随后 中 断 控 制 器 PIC 会 对 暂 存 在 IPR 寄 仿 
存 器 中 的 中 断 源 进行 处 理 , 并 将 中 断 优 先 级 别 最 高 
的 中 断 源 通过 IS( Interrupt Selector) 传递 到 IRR 


(Interrupt Request Register ) 寄存 般 中 。 此 时 IRR 
寄存 器 保存 这 个 优先 级 别 最 高 的 中 断 源 的 硬件 中 


断 号 (VECTOR) 和 中 断 优先 级 别 (PRIORITY)。 i i 
(3) 如 果 在 IRR 寄存 器 中 存放 的 中 断 源 , 其 优 II 


先 级 高 于 CTPR(Current Task Priority Register) 和 图 6-1 MPC8541 外 部 中 断 处 理 流程 
ISR( In-Service Register) 寄 存 器 中 存放 的 中 断 源 ,中 

断 控 制 器 PIC 将 使 用 int# 或 者 cint# 信号 向 MPC8541 处 理 器 发 出 中 断 请 求 。CTPR 寄存 吾 
存放 着 正在 被 当前 中 断 的 优先 级 别 ,该 寄存 器 由 软件 进行 设置 。 . 

(4) 当 int# 或 者 cint# 信 号 有 效 时 ,CPU 跳 转 到 外 部 中 断 向 量 ,并 开始 执行 外 部 中 断 处 
理 程序 。 处 理 器 进入 中 断 服务 程序 后 ,将 读 取 IACK(Interrupt Acknowledge) 寄 存 器 ,启动 中 
断 响应 周期 。 对 IACK 寄存 器 的 读 写 将 使 无 效 int# 或 者 cint# 信 号 。 

(5) 在 MPC8541 处 理 器 进行 中 断 响应 时 ,处 理 器 开始 真正 意义 上 的 中 断 处 理 ,同时 由 软 
件 更 新 CTPR 寄存 器 为 当前 中 断 源 的 优先 级 别 ,并 由 中 断 控制 器 PIC 在 ISR 寄存 恬 中 标记 当 
前 中 断 源 正 在 被 处 理 。MPC8541 处 理 器 使 用 ISR 寄存 器 ,记录 所 有 正在 被 处 理 的 中 断 源 和 当 
前 最 高 的 中 断 优 先 级 别 。 

(6) 在 MPC8541 中 ,所 有 的 中 断 源 都 有 可 能 引发 外 部 中 断 。 此 时 中 断 处 理 程序 必须 通过 
存放 在 IACK 寄存 器 中 的 硬件 中 断 号 ,判断 究竟 是 哪 一 个 中 断 源 引发 的 外 部 中 断 ,随后 调用 相 
应 的 中 断 服务 例 程 ,处 理 相 应 的 中 断 事件 。 

(7) 中 断 事件 处 理 完毕 后 ,MPC8541 处 理 器 将 对 EOI(End of Interrupt Register) 寄 存 絮 进 
行 写 操作 以 完成 当前 中 断 , 并 由 中 断 控制 器 PIC 自动 完成 对 ISR 寄存 器 的 维护 ,同时 使 用 软 
件 更 新 CTPR 寄存 器 为 一 个 较 低 的 值 ,以 便 其 他 中 断 进 入 。 

(8) 在 程序 员 进 行 外 部 中 断 处 理 时 ,可 以 将 CTPR 寄存 器 设 为 0, 而 由 ISR 寄存 器 维护 中 
断 源 的 级 别 , 并 判断 是 否 允 许 中 断 重信。 

上 述 外 部 中 断 处 理 流程 由 软 硬 件 协同 完成 。 无 论 用 户 使 用 什么 操作 系统 ,E500 内 核 的 外 
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部 中 断 都 需要 依 此 进行 。 对 于 Linux PowerPC, 外 部 中 断 处 理 程序 的 设计 者 需要 考虑 整个 系 
统 的 完备 性 ,保证 不 同 PowerPC 处 理 器 之 间 的 一 致 。 

这 些 要求 增 加 了 Linux PowerPC 的 外 部 中 断 处 理 程序 的 复杂 性 。 比 如 在 Linux PowerPC 
中 ,设计 者 需要 考虑 有 多 个 中 断 控 制 器 PIC 的 应 用 ;需要 考虑 用 户 可 能 使 用 中 断 控制 器 PIC 
的 Pass-Through 功能 ;需要 在 系统 的 级 别 上 ,考虑 外 部 中 断 的 相 套 ;需要 兼容 一 些 与 OpenPIC 
或 者 MPIC 中 断 控制 器 基本 类 似 而 不 完全 一 致 的 中 断 控 制 器 ;需要 考虑 种 种 的 错误 处 理 。 

这 些 种 种 的 顷 密 考虑 导致 了 Linux PowerPC 外 部 中 断 处 理 的 复杂 性 。 这 些 续 密 考虑 也 是 
普通 的 程序 员 与 系统 程序 员 之 间 差 异 所 在 。 因 为 缺少 这 些 续 密 的 考虑 ,普通 程序 员 目 前 还 在 
生产 着 越 来 越 多 的 程序 Bug。 

在 Linux 系统 中 ,来 自 处 理 器 外 部 或 者 内 部 的 异常 事件 经 常 是 系统 调度 .进程 切换 及 一 些 
系统 事件 的 激发 者 。 为 此 在 Linux PowerPC 中 ,设置 了 许多 数据 结构 ,支持 外 部 中 断 处 理 。 目 
前 在 Linux 2.6 内 核 中 ,使 用 了 基于 MPIC 和 OpenPIC 中 断 控制 器 的 程序 处 理 外 部 中 断 。 

如果 用 户 使 用 ARCH= ppc 配置 Linux 内 核 , 则 使 用 基于 OpenPIC 中 断 控 制 器 的 程序 ;如 
采用 户 使 用 ARCH= powerpc 配置 Linux 内 核 , 则 使 用 基于 MPIC 中 断 控 制 器 的 程序 。 本 书 将 
在 下 文 详细 介绍 基于 MPIC 中 断 控 制 器 的 程序 ,而 只 对 基于 OpenPIC 中 断 控制 器 的 程序 进行 
简单 说 明 。 


6.2 MPIC 中 断 处 理 程序 


本 书 将 基于 MPIC 中 断 控制 器 的 中 断 处 理 程序 ,简称 为 MPIC 中 断 处 理 程序 。MPIC 中 
新 处 理 程序 是 Linux PowerPC 中 断 处 理 系统 的 核心 。MPC8541 的 中 断 控制 器 PIC 与 MPIC 
中 断 控 制 占 基本 一 致 。 只 是 在 MPIC 中 断 处 理 程序 中 ,许多 代码 是 针对 有 多 个 中 断 控制 器 的 
处 理 咒 ,而 MPC8541 处 理 器 只 有 一 个 中 断 控 制 器 ,因此 这 部 分 代码 对 于 MPC8541 处 理 器 来 
说 ,有 些 元 余 。 

在 介绍 MPIC 中 有 断 处 理 程序 之 前 ,本 章 首先 简单 介绍 Linux PowerPC 对 外 部 中 断 进 行 处 
理 的 流程 。 在 本 章 的 开始 部 分 ,曾经 简单 介绍 了 Linux PowerPC 的 外 部 中 断 处 理 的 三 大 组 成 
部 分 。 


(1) Linux PowerPC 的 外 部 中 断 系统 的 初始 化 。 

(2) 设备 驱动 程序 的 中 断 服务 例 程 与 外 部 中 断 处 理 系统 的 挂 接 。 

(3) 外 部 中 断 的 处 理 过 程 。 

在 Linux PowerPC 外 部 中 断 系 统 初始 化 时 ,主要 完成 对 外 部 中 断 向 量 的 设置 ， 这 部 分 内 容 
与 MPIC 中 断 处 理 程序 无 关 。 在 Linux PowerPC 引导 时 ,通过 对 IPVR 和 IVOR4 寄存 器 赋 
值 ,完成 外 部 中 断 向 量 的 设置 ,如 以 下 程序 所 示 : 





在 这 段 程序 中 , 仅 将 interrupt _ base 地 址 的 高 16 位 赋值 给 IVPR 寄存 器 ,这 是 因为 E500 
内 核 的 中 断 向 量 的 和 人口 地 址 为 IVPR[32-47] | IVORn[49-59] | 0b0000。 中 断 向 量 只 使 用 
IVPR 寄存 器 的 高 16 地 址 和 IVOR 寄存 器 中 的 低 16 位 。 
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随后 ,Linux PowerPC 使 用 宏 SET _ IVOR 对 与 外 部 中 断 相 对 应 的 IVPR4 寄存 器 进行 设 
置 , 从 而 完成 了 外 部 中 断 向 量 的 设置 


SET _IVOR(44 ,ExternalInput) 3 


Er26,Exteraallnput @1; \ 
mtspr SPRN _ IVOR4 ,r26; \ 
sync 


这 段 程序 将 Externallnput 函数 地 址 的 低 16 位 赋值 给 寄存 器 IVOR4， 这 使 得 当 E500 内 
核 的 外 部 中 断 来 临时 ,外 部 中 断 处 理 程序 可 以 在 [VPR 和 IVOR4 指定 的 地 址 处 执行 .在 这 上段 
代码 中 ,读者 可 以 发 现 Linux PowerPC 外 部 中 断 人 口 程序 为 ExternalInput 函数 。 
当 ESUU 内 核 的 int 二 信和 号 有 效 时 .MPC8541 处 理 器 启动 外 部 中 断 响应 周期 ,通过 MPIC 
中 断 处 理 程序 获得 外 部 中 断 源 使 用 的 硬件 中 断 号 ,然后 执行 与 硬件 中 断 号 对 应 的 中 断 服 务 例 
程 ,最 后 MPIC 中 断 处 理 程 序 向 EOI 寄存 器 写 人 外 部 中 断 结束 命令 ,完成 外 部 中 断 的 处 理 . 
在 Linux 系统 中 ,外 部 中 断 源 使 用 的 中 断 服务 例 程 ,通过 设备 驱动 程序 挂 接 到 外 部 中 断 处 
理 程序 中 。Linux 系统 出 于 整个 系统 的 灵活 性 及 可 配置 性 的 考虑 ,在 设备 驱动 程序 中 ,不 直接 
使 用 硬件 中 断 号 ,而 是 使 用 软件 中 断 号 将 设备 驱动 程序 中 的 中 断 服 务 例 程 ,加 入 到 Linux 系统 
的 外 部 中 斯 处 理 程序 中 。 
由 此 可 见 ,Linux 系统 必须 在 硬件 中 断 号 和 软件 中 断 号 之 间 建 立 映射 关系 ,以 方便 实现 硬 
件 中 断 到 软件 中 断 号 的 转换 ,和 软件 中 断 号 到 硬件 中 断 号 的 转换 。 在 Linux PowerPC 中 ,系统 
程序 员 需 要 建立 以 下 两 种 中 断 号 映射 关系 : 
e Linux 系统 的 外 部 中 断 处 理 程序 需要 将 硬件 中 断 号 转换 为 软件 中 断 号 ,然后 通过 软件 
中 断 号 找到 相应 的 外 部 中 断 服务 例 程 ,执行 相应 的 外 部 中 断 处理 。 因 此 Linux Power- 
PC 必须 建立 硬件 中 断 号 与 软件 中 断 号 之 间 的 映射 。 
e Linux 系统 的 议 备 驱动 程序 需要 将 软件 中 断 号 转换 为 硬件 中 断 导 ,然后 将 外 部 中 断 服 
务 例 程 与 硬件 中 断 号 联系 在 一 起 。 为 此 Linux PowerPC 还 要 建立 软件 中 断 号 与 硬件 中 
断 号 之 间 的 映射 。 
为 提高 效率 ,Linux PowerPC 使 用 了 两 个 独立 的 中 断 映射 表 存 放 这 些 映 射 关系 。 
Linux PowerPC 使 用 MPIC 中 断 处 理 程 序 ,完成 软 人 硬件 中 断 号 之 间 的 转换 ,此 外 ,Linux 
PowerPC 还 使 用 MPIC 中 断 处 理 程序 对 中 断 控制 器 中 的 寄存 器 进行 读 写 操作 。 为 了 实现 这 些 
功能 ,Linux PowerPC 使 用 了 一 系列 数据 结构 和 操作 函数 实现 MPIC 中 断 处 理 程序 . 


6.2.1 MPIC 中 断 处 理 程序 使 用 的 主要 数据 结构 


.Ainclude/asm-powerpc/mpi.h 文件 中 ,Linux PowerPC 定义 了 许多 与 MPIC 中 断 处 理 
程序 有 关 的 数据 结构 ,其 中 最 为 重要 的 数据 结构 为 mpic 结构 。 在 一 个 处 理 器 系统 中 ,可 能 有 
多 个 MPIC 中 断 控制 器 ,每 一 个 mpic 结构 描述 一 个 中 断 控制 器 。MPIC 中 断 控制 器 支持 级 联 
方式 ,一 个 处 理 器 系统 可 以 将 多 个 MPIC 中 断 控制 器 级 联 , 统 一 处 理 所 有 外 部 中 断 源 . 

mpic 结构 记录 了 MPIC 中 断 控 制 器 使 用 的 所 有 寄存 器 、 对 这 些 寄存 器 操作 的 函数 指针 等 
其 他 参数 ,mpic 结构 的 各 个 参数 如 下 所 示 。 
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1. device _ node 参数 


struct mpic 

| 
A The device node of the interrupt controller * / 
struct device _ node* of node; 


Linux PowerPC 支持 Open Firmware 结构 ,该 结构 使 用 device node 结构 管理 所 有 处 理 器 
资源 ,包括 处 理 希 类 型 .存储 器 大 小 .PCI 总 线 属 性 .所 有 的 外 部 设备 及 中 断 控 制 器 等 。of _ 
node 参数 指 回 MPIC 中 断 控 制 器 的 device _node 指针 ,在 Linux PowerPC 引导 时 ,该 参数 根据 
当前 处 理 器 系统 的 外 部 中 断 信 息 初 始 化 。 

在 Open Firmware 结构 中 还 实现 了 一 组 OP API 用 来 操纵 device _ node 结构 。 有 关 Open 
Firmware 的 详细 资料 请 见 下 文 

2. irq _ host 参数 


/7# The remapper for this MPIC # 7 
struct irg _ host * irghost; 


irqghost 参数 保存 当前 MPIC 中 断 处 理 程序 使 用 的 irq _ host 结构 指针 。irq _ host 结构 的 
主要 作用 是 建立 MPIC 中 断 控 制 器 的 硬件 中 断 号 与 Linux PowerPC 软件 中 断 号 之 间 的 联系 ， 
印 为 Linux 的 软件 中 断 处 理 程 序 和 硬件 处 理 器 中 断 号 建立 映射 关系 。 

由 上 文 所 述 在 Linux PowerPC 中 ,设备 驱动 程序 只 能 使 用 软件 中 断 号 将 自己 的 中 断 服务 
列 程 挂 接 到 外 部 中 断 处 理 程序 中 ,而 在 外 部 中 断 处 理 程序 中 只 能 读 写 MPIC 中 断 控 制 器 的 
IACK 寄存 器 获得 中 断 的 硬件 中 断 号 ,因此 Linux PowerPC 需要 提供 一 种 机 制 将 硬件 中 断 号 
转换 为 对 应 的 软件 中 断 号 后 ,才能 在 外 部 中 断 处 理 程序 中 调用 相应 设备 的 中 断 服务 例 程 ,从 而 
处 理 外 部 设备 的 中 断 请 求 。irq _ host 数据 结构 在 . /include/asm-powerpc/irg.h 文件 中 ,其 主 

struct irg _ host | 
struct list _ head link; 


7 # type of reverse mapping rechnigue ¥ / 
unsigned int revmap _ type: 
#define IRQ_ HOST MAP LEGACY 0 
# define [IRQ_ HOST MAP NOMAP 1 A no fast reverse mapping * / 
#define IRQ_ HOST _ MAP LINEAR 2 /¥ linear map of interrupts * / 
#define IRQ_ HOST _ MAP _ TREE 3 A radix tree ¥/ 
union | 
struct | 
unsigned int size; 
unsigned int * revmap; 
| linear; 
struct radix tree root tree; 
| revmap _ data; 


/¥ legacy 8259,gets irgs 1..15 */ 
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struct irg_ host_ ops * ops; 

void * host _darai; 

irqd _hw nuamber ft inval_ irg; 
1 

(1) link 参数 。 在 一 个 处 理 器 系统 中 ,可 能 有 多 个 中 断 控 制 器 ,Linux PowerPC 为 每 一 个 
中 炳 控制 咎 提供 了 一 个 irq _ host 结构 ,并 使 用 irq _ host 结构 中 的 link 参数 将 所 有 这 些 irq 
host 连接 在 一 起 ,形成 一 个 irq _ host 队列 。 

Linux PowerPC 使 用 全 局 指针 irg _ hosts, 指 向 这 个 队列 的 头 部 ,全 局 指针 irq ”hosts 在 
. /arch/powerpc/kernel/irg.c 文件 中 定义 。 许 多 Linux 系统 的 系统 程序 员 喜 欢 使 用 list _ head 
结构 将 一 些 相互 关联 的 结构 连接 在 一 起 。 在 Linux 系统 中 ,有 时 系统 程序 员 对 list _ head 结构 
的 使 用 已 经 达到 了 泛滥 的 地 步 。 实际 上 在 Linux 系统 中 ,有 许多 结构 并 没有 一 定 要 使 用 这 个 
结构 的 必要 ， 

(2) revmap _ type 参数 。Linux PowerPC 为 每 一 个 irq _ host 结构 定义 了 四 种 软 硬 件 中 断 
号 之 则 的 映射 关系 ,并 且 使 用 revmap _ type 参数 记录 这 种 映射 关系 。revmap _ type 参数 的 取 
值 范围 为 0 一 3, 分 别 使 用 宏 IRQ_ HOST_MAP_LEGACY.IRQ_ HOST MAP _ NOMAP, 
IRQ_ HOST_MAP_LINEAR 和 IRQ_ HOST MAP TREE 表示 。 

e revmap _ type 参数 为 IRQ_ HOST_ MAP_ LEGACY 时 ,当前 irq _ host 结构 用 来 描述 

8259 中 断 控制 器 。8259 中 断 控制 器 是 一 种 可 编程 的 中 断 控 制 器 ,可 以 管理 8 个 中 断 请 
求 , 同 时 ,可 通过 多 片 级 联 实现 多 达 64 个 的 中 断 请 求 。8259 中 断 控 制 器 是 一 个 较 常 用 
的 中 断 控 制 絮 ,许多 人 在 大 学 期 间 就 已 经 掌握 了 这 种 中 断 控制 器 的 使 用 。 在 一 些 处 理 
语系 统 中 ,至今 还 在 使 用 着 8259 中 断 控制 器 ， 

@ revmap _ type 参数 为 IRQ_ HOST _MAP NOMAP 时 ,当前 irq ”host 结构 用 来 支持 

IBM 的 iSeries 服务 器 。 

@ revmap _ type 参数 为 IRQ_HOST_MAP _ TREE 时 ,当前 irq _ host 结构 采用 树 型 结构 
建立 处 理 器 系统 的 软 便 件 中 断 号 之 间 的 映射 ,IBM 的 pSeries 服务 器 采用 了 这 种 方式 建 
立 软 人 硬件 中 断 号 之 间 的 映射 。IBM 公司 一 直 喜 欢 使 用 各 种 各 样 的 方式 ,并 尝试 各 种 各 
样 的 算法 。 本 书 对 IRQ_ HOST_ MAP _ LEGACY 和 IRQ_ HOST _ MAP _ NOMAP 
这 两 种 中 断 映射 方式 不 作 介绍 。 

@ revmap _ type 参数 为 IRQ_ HOST_ MAP _ LINEAR 时 ,表示 当前 irq _ host 结构 采用 
线 型 结构 建立 处 理 器 系统 的 软 硬 件 中 断 号 之 间 的 上 映射 ,Freescale 的 PowerPC 处 理 器 采 
用 了 这 种 方式 ,该 方式 也 是 本 书 介绍 的 重点 。 

(3) linear 参数 是 revmap _ data 联合 结构 中 的 一 个 结构 变量 ,linear 结构 定义 了 两 个 参数 ， 
分 别 为 size 和 revmap 参数 ,size 参数 和 revmap[0 共享 同一 个 存储 空间 ,revmap[0] 没 有 被 irq 
_ host 结构 使 用 。size 参数 用 来 确定 在 当前 irq _ host 结构 中 一 共 支 持 多 少 个 中 断 源 ,而 
revmap 数组 的 大 小 由 size 参数 规定 。revmap 是 一 个 整 型 数组 ,在 该 数组 中 存放 着 硬件 中 断 号 
与 软件 中 断 号 之 间 的 映射 关系 。 

(4) ops 参数 是 指向 irq _ host _ ops 结构 的 指针 。 在 irq _ host _ ops 结构 中 有 四 个 操作 函 
数 :match,map,unmap 和 xlate。 这 些 函 数 的 主要 作用 是 对 处 理 器 硬件 中 断 号 和 操作 系统 软件 
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中 断 号 进行 映射 。 

在 MPIC 中 断 处 理 程序 中 ,软件 中 断 叶 和 硬件 中 断 号 不 是 简单 的 一 一 映射 关系 。 如 果 用 
户 将 一 个 软件 中 上 断 号 资源 释放 ,之 后 再 根据 相同 硬件 中 断 号 回 系统 申请 软件 中 断 号 时 ,可 能 获 
得 的 软件 中 断 叶 与 原来 的 软件 中 断 号 不 同 。 

使 用 OpenPIC 中 断 处 理 程 序 时 ,软件 中 断 号 释放 后 ,根据 相同 硬件 中 断 号 向 系统 申请 软 
件 中 断 号 时 ,获得 的 软件 中 断 号 资源 与 之 前 的 号 码 完 全 相同 。、MPIC 中 断 控制 器 的 这 种 实现 
方法 提高 了 软件 中 断 号 管理 的 灵活 性 ,同时 也 可 以 充分 利用 软件 中 断 号 资源 。 

(5) host _ data 参数 是 一 个 void 类 型 的 指针 ,用 来 保存 当前 mpic 结构 c 

3. hc_ irgshc_ht_ irqg 和 hc _ ipi 参数 


/# The linux controller struct * / 
struct irg _ chip he _ irg; 

#ifdef CONFIG _ MPIC_ BROKEN _ U3 
struct irg _ chip he _ ht _ irg; 

+t endif 

#ifdef CONFIG _ SMP 
strict irg _ chip he _ ipi; 

i# endif 


hc_irg,he_ht irg 和 hc ipi 是 irq_chip 结构 的 参数 。 其 中 he _ipi 参数 对 SMP 结构 的 
处 理 器 有 意义 。hec _ ht _ irg 参数 只 对 使 用 HyperTransport 技术 的 处 理 器 有 意义 ,IBM 的 
PPC970 处 理 器 使 用 了 这 种 技术 ,对 此 技术 有 兴趣 的 读者 可 以 参考 Jay Trodden 和 Don Ander- 
son 合 着 的 HyperTransport System Architecture。 

irqg _ chip 结构 描述 MPIC 中 断 控制 历 的 属性 。irq _ chip 结构 为 系统 软件 提供 了 一 组 对 中 
断 控 制 器 MPIC 的 寄存 器 ,进行 操作 的 函数 集 。irq _ chip 结构 的 定义 在 .vincludevlinuxvirq.h 
文件 中 ,其 主要 数据 成 员 如 下 : 


struct irg _ chip | 
const char * name: 
unsigned int( # startup)( unsigned int irq); 
void (* shutdown) (unsigned int irq); 
void (* enable)(unsigned int irq); 
void (* disable)(unsigned int irq); 


void (* ack){(unsigned int irg); 

void (* mask)(unsigned int irq); 

void (*mask ack)(unsigned int irg); 

void ( * unmask) (unsigned int irg); 

void ( * eoi)(unsigned int irq); 

void ( * end)(unsigned int irg); 

void (xset affinity)(unsigned int irg,cpumask tt dest); 
int (* retrigger)(unsigned int irg); 
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int (*set_ type)(unsigned int irg,unsigned int flow _ type); 
int (xset_ wake)(unsigned int irg.unsigned int on); 


/A¥ Currently used only by UML ,might disappear one day. * / 
#ifdef CONFIG _ IRQ_ RELEASE_ METHOD 

void (* release)(unsigned int irg,void * dev _ id); 
# endif 


const char * typename:; 
| ; 

@ name 参数 。 Linux 系统 用 此 参数 纪录 在 /proc/interrupts 目录 下 中 上 断 控 制 部 的 名 称 。 

@ startup,enable,unmask 图 数 用 来 使 能 对 应 的 中 断 谣 ， 

@ shurdown disable 和 mask 国 数 用 来 屏蔽 对 应 的 中 新海- 

@ ack 图 数 用 来 进行 中 断 啊 应 ， 

@mask ack 图 数 用 来 啊 应 并 屏蔽 对 应 的 中 断 源 。 

@ eoi 国 数 和 end 国 数 结束 对 应 中 断 的 处 理 。end 函数 与 eoi 国 数 的 区 别 在 于 , 当 eoi 国 数 
执行 完毕 后 ,对 于 处 理 器 而 言 , 中 断 处 理 过 程 完毕 .而 end 函数 执行 完毕 后 ,对 于 操作 
系统 而 言 ,中 断 处 理 过 程 结 束 。 

@ set _ affinity 函数 用 来 设置 中 断 亲 和 属性 , 即 该 中 断 由 SMP 中 的 哪个 处 理 器 进行 处 理 。 
此 函数 对 于 Linux SMP 系统 有 意义 。 

MPIC 中 断 处 理 程序 可 以 使 用 mpic 一 he _ irq 参数 中 的 函数 ,对 MPIC 中 断 控制 部 的 中 断 

源 寄 存 器 组 进行 读 写 。MPIC 中 断 处 理 程序 的 mpic->hc _ irg 参数 中 有 四 个 重要 的 函数 ,分 别 
是 中 断 源 屏 蔽 函数 mpic _ mask _irq .中 断 源 使 能 函数 mpic _ unmask _ irg\ 中 断 请 求 结 束 孔 数 
mpic _ endirqg 和 中 断 类 型 设置 图 数 mpic set _ irg _ type- 

4. name 参数 和 flags 参数 


const char ¥ Nname;: 
/A#¥ Flags */ 
unsigned int flags; 
name 参数 记录 mpic 结构 的 名 字 , flags 参数 主要 用 于 MPIC 中 断 处 理 程序 的 初始 化 。 在 
Linux PowerPC 中 ,flags 参数 可 以 为 以 下 数据 位 的 组 合 
@ MPIC PRIMARY。 此 位 为 1 时 ,当前 MPIC 中 断 控 制 器 为 主 中 断 控 制 器 。MPIC 中 
断 控制 器 支持 多 个 中 断 控制 器 的 级 联 。 在 一 个 处 理 器 系统 中 ,只 能 有 一 个 主 控 制 兹 。 
@ MPIC BIG ENDIAN。 此 位 为 1 时 ,Linux PowerPC 将 使 用 大 端 方式 访问 当前 中 断 控 
制 咒 的 寄存 器 。 
@ MPIC BROKEN _ U3 为 1 时 ,当前 处 理 器 系统 使 用 了 HyperTransport 技术 。 
e@ MPIC BROKEN _IPI 为 1 时 ,当前 MPIC 中 断 处 理 程序 运行 在 Linux SMP 系统 中 。 
@ MPIC WANTS_RESET。 此 位 为 1 表示 Linux PowerPC 在 初始 化 MPIC 中 断 处 理 程 
序 时 宕 要 对 MPIC 中 断 控 制品 进行 硬件 复位 。 
@ MPIC_SPV_EOI。 此 位 为 1 表示 处 理 器 产生 Spurious 中 断 时 ,需要 使 用 eoi 函数 结束 
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处 理 兹 的 Spurious 中 断 。 

9 MPIC_ NO_PTHROU _DIS。 此 位 为 1 表示 禁止 8259 的 pass-through 功能 . 

@ MPIC_ REGSET _ STANDARD 与 MPIC_ REGSET _TSI108。 设 置 两 个 位 的 目的 是 
针对 一 些 与 MPIC 中 断 控 制 器 不 完全 兼容 的 中 断 控制 器 ,如 TSI108/TSI109 桥 片 。 
TSI108/109 桥 片 的 中 断 控制 器 ,其 整体 结构 与 MPIC 中 断 控 制 器 类 似 , 但 是 个 别 寄存 
谷 的 地 址 偶 移 与 MPIC 中 断 控 制 器 的 标准 定义 不 同 。 这 可 能 是 由 该 芯片 的 设计 工程 师 
的 朴 忽 造成 的 。Linux PowerPC 使 用 条 件 编译 CONFIG _ MPIC _ WEIRD 处 理 
TSI108A109 桥 片 这 些 非 标准 的 MPIC 中 断 控制 器 中 断 控 制 器 。 

5. 与 ISU 相关 的 参数 

unsigned int 1ISU _. SI2e; 

unsigned int isu _ shift; 

unsigned int is _ mask: 

volatile u32__ iomem  *isus[MPIC MAX _ISU]; 

Linux PowerPC 在 实现 MPIC 中 断 控制 器 时 ,采用 了 ISU(Interrupt Source Unit) 技 术 处 理 
分 布 式 中 断 。 在 ISU 中 ,可 以 将 多 个 相似 的 硬件 中 断 源 划分 到 一 个 组 中 , 然后 再 进行 分 组 处 
理 。 采 用 这 种 方法 的 优点 是 可 以 将 一 些 特征 相似 的 中 断 源 统一 管理 ,从 而 在 一 定 程度 上 提高 
了 中 断 处 理 的 效率 。 该 技术 也 是 IBM 众多 专利 技术 中 的 一 员 。Linux PowerPC 使 用 isu _ 
size,isu _ shift,isu_ mask 和 isus 参数 实现 ISU 技术 ,其 含义 如 下 所 示 : 

e@ isu _ size 参数 表示 在 一 个 中 断 组 ISU 中 一 共有 多 少 个 中 断 

e@ isu _ shift 参数 协助 计算 一 个 硬件 中 断 号 属于 哪个 ISU 组。 

9 isu _mask 参数 协助 计算 一 个 硬件 中 断 号 在 ISU 组 中 的 偏 移 . 

@ isus 效 组 记录 ISU 组 中 第 一 个 中 断 间 量 的 虚拟 地 址 。 

6. 其 他 参数 

unsigned int irq _count; 
/¥ Number of sources * 7 
unsigned int num _ sources; 
/¥ Number of CPUs */ 
unsigned int num _ cpus; 


/¥* The various ioremap ed bases */ 

struct mpic _ reg _ bank Eregs; 

struct mpic _ reg _ bank bmregs; 

struct mpic _ reg _ bank cpuregs| MPIC MAX CPUS |; 


A link */ 
struct mpic ¥ next; 
六 
在 mpic 结构 中 ,还 有 一 些 其 他 参数 ,其 描述 如 下 : 
9 irq _ count 参数 记录 在 当前 mpic 结构 中 有 效 中 断 源 个 数 。 
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9 num _ sources 参数 记录 在 当前 mpic 结构 中 ,共有 多 少 个 中 断 源 。 

num _ cpus 参数 记录 当前 mpic 结构 中 ,共有 多 少 个 CPU。 

@ gregs 参数 记录 指向 MPIC 中 断 控 制 器 的 Global Register 的 基地 址 。 

@ tmregs 参数 保存 在 MPIC 中 断 控 制 器 的 Global Time Register 的 基地 址 。 

@ cpuregs 指针 保存 在 MPIC 中 断 控 制 器 的 Per Processor Register 的 基地 址 。 

@ next 指针 指向 当前 系统 下 一 个 mpic 结构 。MPIC 中 断 控 制 器 支持 级 联 操作 ,next 指针 
就 是 为 了 支持 这 一 特性 而 设立 的 。 


6.2.2 MPIC 中 靳 处 理 程序 使 用 的 主要 变量 与 操作 函数 


Linux PowerPC 在 实现 MPIC 中 断 处 理 程序 时 ,使 用 了 两 个 全 局 变量 ,分 别 是 mpics 和 
mpic _ primary, 其 定义 在 . /arch/powerpc/sysdev/mpic.c 文件 中 。 
static struct mpic * mpics; 
static struct mpic * mpic_ primary; 
在 实现 mpics 和 mpic _ primary 变量 时 ,Linux PowerPC 使 用 了 static 前 组 ,以 保证 这 两 个 
变量 仅 在 mpic.c 文件 中 有 效 , 避 免 了 对 Linux PowerPC 全 局 变量 的 污染 。 
Linux PowerPC 在 实现 MPIC 中 断 处 理 程序 时 ,虽然 仅 使 用 了 C 语言 ,但 是 借用 了 一 些 面 
向 对 象 程序 设计 的 思想 ,这 使 得 Linux PowerPC 对 MPIC 中 断 处 理 程 序 的 实现 ,更 加 模块 化 、 
更 具 灵 活性 和 可 移植 性 。 
mpics 变量 是 一 个 指向 mpic 结构 的 指针 , Linux PowerPC 使 用 此 指针 访问 所 有 在 Linux 
系统 内 的 mpic 结构 。mpic_primary 也 是 指向 mpic 结构 的 指针 ,但 是 此 指针 只 用 来 访问 当前 
操作 系统 中 的 Primary MPIC 中 断 控制 器 。 在 支持 多 个 MPIC 中 断 控制 器 的 处 理 器 系统 中 ,只 
有 一 个 MPIC 中 断 控 制 器 可 以 作为 Primary MPIC 中 断 控 制 器 。 在 Linux PowerPC 中 ,还 支持 
了 许多 操作 函数 和 宏 ,用 来 管理 和 访问 MPIC 中 断 控制 器 的 资源 。 
1. MPIC 中 断 控 制 器 的 寄存 器 读 写 函数 
Linux PowerPC 定义 了 一 些 宏 ,管理 和 访问 MPIC 中 断 控 制 器 的 寄存 器 资源 。 这 些 宏 的 
定义 如 下 所 示 : 


#define mpic _ read(b,r) _mpic _ read(mpic- >flags & MPIC_ BIG_ ENDIAN., (b), (r)) 
#define mpic_ write(b,r,v) _ mpic_ write(mpic- > flags & MPIC_ BIG_ ENDIAN.(b), (r), (v)) 
#define mpic _cpu _ read(i) _mpic_ cpu_ read(mpic, (i)) 


#define mpic cpu_write(i,v) _ mpiec_ cpu_ write(mpic, (i),(v)) 
# define mpic _ irg _ read{(s,r) _ mpic _ irg_ read(mpic, (sj ,(r)) 
#define mpic _irg_ write(syrsv) _ mpiec_ irg_ write(mpic,(s),(r),(v)) 
mpic _ read 和 mpic _ write 函数 证 写 在 MPIC 中 断 控 制 竟 的 所 有 寄存 兹 。 在 Linux 
PowerPC 中 ,mpic_ cpu_read,mpic_ cpu_ write,mpic_irg_read 和 mpic_irg_ write 使 
用 _mpic _ read 和 _ mpic write 图 数 实现 。 
@ mpic_ cpu_ read 和 mpic _cpu_ write 国 数 读 写 在 MPIC 中 断 控制 器 中 的 Per Processor 
Register。mpic _irg read 和 mpic _irg _ write 函数 读 写 与 便 件 中 断 号 对 应 的 寄存 需 ,如 
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IJVPR0 一 31,IIDR0 一 31 和 EIVPR0 一 11,EIDR0 一 11 寄存 器 
2. hc _irq 参 数 中 的 中 断 屏 蔽 与 中 断 使 能 函数 
hc _ irg 参数 的 中 断 屏 项 函数 为 mpic _mask _ irq, 中 断 使 能 函数 为 mpic unmask irg 
其 中 mpic ”mask _ irg 函数 的 代码 如 下 : 
static void mpic _ mask _ irg( unsigned int irg) 
| 
unsigned int loops = 100000; 
struct mpic * mpic = mpic_ from _ irg(irg); 
unsigned int src = mpic_irg_ to_ hw(irg); 


mpic_ irq _ writelsre, MPIC_ INFO(IRQ _ VECTOR _ PRLD, 
mpic_ irg_ read(sre, MPIC_ INFO(IRQ_ VECTOR _ PRD) | 
MPIC_ VECPRI MASK); 
YX# make sure mask gets to controller before we retum to user * / 
do | 
if (! loops- -) | 
printk( KERN ERR mpic enable_irg timeout \n ); 
break; 
| 
| while(! (mpic_irg_ read(sre, MPIC _ INFO(IRQ_ VECTOR _ PRI)) 
& MPIC_ VECPRI MASK)); 
i/# Endmpic mask irg */ 


该 函数 的 主要 作用 是 屏蔽 相应 的 外 部 中 断 源 。mpic _ mask _ irg 函数 的 输入 参数 为 中 断 
源 对 应 的 软件 中 断 号 irq, 该 函数 没有 返回 值 ,其 执行 流程 如 下 : 

1) 使 用 mpic _ from _ irg 函数 ,从 全 局 变量 irq _ desc 与 irg 参数 对 应 的 Entry 中 ,获得 软 
件 中 断 号 irq 使 用 的 mpic 结构 。irq _ desc 变量 描述 所 有 外 部 中 断 源 的 信息 ,该 变量 的 详细 说 
明 见 6.3.1] 市 。 

2) 调用 mpic _ irq _ to _ hw 函数 从 全 局 变量 irq _ map 中 ,获得 与 软件 中 断 号 对 应 的 硬件 
中 断 号 ,并 根据 硬件 中 断 号 找到 与 此 对 应 的 EIVPR 或 者 IIVPR 寄存 器 ,然后 将 该 寄存 器 的 
MSK 位 置 1, 从 而 屏 项 相应 的 中 断 源 。 全 局 变量 irq_map 存放 着 Linux PowerPC 中 软件 中 断 
号 与 硬件 中 断 号 之 间 的 上 映射 关系 .该 变量 的 详细 说 明 见 6.3.2 节 . 

3) 最 后 该 图 数 使 用 do _ while 循环 保证 相应 的 MSK 位 已 经 被 成 功 地 写 到 相应 的 寄存 器 
IIVPR 和 EIVPR0 中 。 

mpic _ unmask _ irg 图 数 与 mpic_ mask _ irg 函数 的 执行 流程 基本 类 似 , 只 是 该 函数 将 与 
硬件 中 断 号 对 应 的 EIVPR 或 者 IIVPR 寄存 器 中 的 MSK 位 置 0, 从 而 使 能 PowerPC 处 理 器 的 
内 部 或 者 外 部 中 断 源 。 为 节省 篇 幅 , 本 书 不 再 对 这 个 函数 进行 详细 说 明 。 

3. hc__irq 参数 中 的 中 断 请 求 结束 函数 和 中 断 类 型 设置 函数 

hc _ irq 参数 的 中 上 断 请 求 结束 图 数 为 mpic_mask _ irg, 该 函数 的 输入 参数 为 中 断 源 对 应 软 
件 中 断 号 irq, 其 代码 如 下 所 示 : 
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static void mpic _end _irq( unsigned int irq) 
| 
struct mpic * mpic = mpic_ from_ irg(irg); 
mpic _ eoi( mpic); 
| 
该 程序 首先 根据 软件 中 断 号 irq 获得 mpic 结构 ,之 后 通过 mpic _ eio 函数 向 MPIC 中 断 控 
制 器 的 EOI 寄存 器 写 人 0b0000 结束 当前 中 断 的 处 理 。 
hc _ irg 参数 的 中 上 断 类 型 设置 函数 为 mpic set irg _ type。 该 函数 一 共有 两 个 参数 ,virg 
和 flow _ type。 其 中 virg 参数 描述 软件 中 断 号 。flow _ type 参数 用 来 用 来 设置 中 断 触 发 类 型 ， 
其 可 用 值 如 下 所 示 : 
se IRQ _TYPE_ NONE,。 该 值 为 flow _ type 的 缺 省 值 , 没 有 意义 。 
e IRQ_TYPE_EDGE_ RISING- 该 值 表示 当前 中 断 源 使 用 上 升 沿 触发 。 
e IRQ_TYPE_EDGE_ FALLING, 该 值 表示 当前 中 断 源 使 用 下 降 沿 触发 。 
9 IRQ_TYPE EDGE_ BOTH,. 该 值 表示 当前 中 断 源 使 用 上 升 或 者 下 降 沿 触发 。 
9 IRQ_TYPE_ LEVEL_ HIGH。 该 值 表示 当前 中 断 源 使 用 高 电 平 触发 。 
9 IRQ_TYPE _ LEVEL_ LOW。 该 值 表示 当前 中 断 源 使 用 低 电 平 触发 。 
该 函数 的 作用 是 为 相应 的 中 断 源 设置 中 断 触发 条 件 , 当 返回 值 为 0 时 ,表示 该 函数 正常 返 
回 。 该 函数 的 源 代 码 如 下 所 示 : 


static int mpic_ set _irq _ type( unsigned int virq,unsigned int flow _ type) 
| 
struct mpic * mpic = mpic from_ irg(virg); 
unsigned int src = mpic_irg_ to_ hw(virg); 
struct irqg_ desc * desc = get_irg_ desc(virg); 
unsigned int vecpri, vold, vnew; 
@ 使 用 mpic _ from _ irg 函数 获得 相应 的 mpic 结构 。 
@ 使 用 mpic _ irg _ to _ hw 国 数 将 软件 中 断 叶 转换 为 对 应 的 便 件 中 断 号 。 
@ 使 用 get _ irq _ desc 图 数 根据 软件 中 断 号 virq ,获得 全 局 变量 irq _ desc 中 对 应 的 Entry。 
全 局 变量 irq _ desc 中 的 每 一 个 Entry 与 一 个 软件 中 断 号 对 应 。 
if (sre 之 = mpic->irg count) 
return -EINVAL: 


if (flow_ type == IRQ_ TYPE _ NONE.) 
if (mpic- > senses && src < mpic- >senses_ count) 
flow _ type = mpic > senses| src |; 
if (flow_ type == IRQ_ TYPE_ NONE) 
flow _ type = IRQ_ TYPE LEVEL LOW:; 


desc- >status 及 = ~(IRQ_ TYPE_ SENSE_ MASK | IRQ_ LEVEL); 
desc->status | = flow_ type 区 IRQ_TYPE SENSE MASK; 
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if (flow _ type & (IRQ_ TYPE _ LEVEL_ HIGH | IRQ_TYPE_LEVEL_LOW)) 
desc- >status | = IRQ_ LEVEL; 


这 段 程序 首先 对 flow _ type 参数 进行 检查 ,如 果 flow _ type 参数 IRQ _ TYPE_ NONE 
时 ,将 flow _ type 参数 设置 为 IRQ_TYPE LEVEL LOW, 即 低 电 平 触发 。 

这 个 程序 有 些 不 足 之 处 ,这 段 程 序 应 该 对 当前 硬件 中 汤 号 对 应 的 中 断 源 进 行 检查 ,如 果 当 
前 中 断 源 是 MPC8541 处 理 器 的 内 部 中 断 源 , 则 应 该 将 此 参数 设置 为 高 电 平 触发 , 因为 
MPC8541 处 理 器 的 内 部 中 断 源 只 支持 高 电 平 触发 方式 ， 

不 过 幸运 的 是 ,目前 绝 大 多 数 系统 程序 员 在 调用 该 函数 时 ,都 不 会 使 用 IRQ _ TYPE _ 
NONE 作为 flow _ type 的 输 人 参数 。 


if (mpic _is_ ht_ interrupt(mpic.src)) 
vecpri = MPIC_ VECPRI POLARITY POSITIVE | 
MPIC_ VECPRI_ SENSE_ EDGE:; 
else 
vecpri = mpic_ type_ to_ vecpri(mpic, {low _ type); 


vold = mpic irg_ read(srce, MPIC_ INFO(IRQ _ VECTOR _ PRI1)); 
vnew = vold & ~—{(MPIC _ INFO(VECPRI _ POLARITY _ MASK) | 
MPIC INFO(VECPRI_ SENSE_ MASK)); 
wnew | = vecpr; 
if (vold {= vnew) 
mpic_ irg_ write(src, MPIC_ INFO(IRQ _ VECTOR _ PRD ,wew); 


return 0; 
| /¥ End mpic_set_irq_type */ 


上 述 程序 的 主要 作用 是 初始 化 MPIC 中 断 控制 器 中 的 IVPRx 或 者 EIVPRx 寄存 器 . 

@ 首先 如 果 处 理 器 不 支持 HyperTransport 结构 , 则 需要 使 用 mpic _ type _ to _ vecpri 图 数 
将 flow _ type 参数 进行 转换 然后 ,再 存 人 vecpri 变量 中 。mpic _ type _ to _ wecpri 函数 
的 实现 十 分 简单 ,本 书 不 对 此 函数 进行 介绍 ,但 是 建议 读者 阅读 该 函数 的 源 代 码 。 该 函 
数 的 源 代码 在 . /arch/powerpc/sysdev/mpic.c 文件 中 。 

9 之 后 ,这 段 程 序 将 vecpri 变量 写 到 MPC8541 的 IIVPR0 一 31 或 者 EIVPR0 一 11 寄存 器 
中 ,在 外 部 中 断 程 序 初始 化 时 ,需要 调用 该 图 数 初 始 化 所 有 的 中 断 源 。 

4. mpic _assign _ isu 函数 

void _ init mpic _assign _ jisu(struct mpic * mpic, unsigned int isu _ num, 
phys _ addr _ + paddr) 
| 


unsigned int isu_ first = isu_ num * mpic->isu _ size; 


BUG ON(isu_num >= MPIC MAX ISU); 
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mpic_ map( mpic, paddr, &mpic- > isus| isu _ num | ,0, 
MPIC_ INFO(IRQ_ STRIDE) * mpic >isu size); 
i ((isu_ first + mpic->isu_ size) > mpic->num sources) 


mpic- 之 num _ sources = isu_ first + mpic->isu_ size; 


mpic _ assign _ isu 图 数 对 MPIC 中 上 断 控 制 苍 的 Interrupt Source Configuration Registers 寄 
存 益 进行 虚实 地 址 转换 ,并 将 得 到 的 虚拟 地 址 存 人 mpic 结构 的 isus 参数 中 ,之 后 更 新 mpic 结 
移 中 的 num sources 参数 

5. irq _ alloc _ host 函数 

irq _ alloc _ host 函数 用 来 分 配 mpic 结构 中 的 irq _ host 参数 ,该 函数 成 功 结 束 后 将 返回 已 
分 配 的 irq _ host 结构 指针 。 

irq_alloc ”host 函数 的 定义 在 . /arch/powerpc/kernel/irg.c 文件 中 ,该 图 数 将 建立 硬件 中 
断 号 与 软件 中 断 号 之 间 的 映射 表 revmap, 其 源 代码 的 详细 说 明 如 下 : 


struct irqg _host * irg_ alloce_ host(unsigned int revmap _ type， 
unsigned int revmap _ arg, 
struct irqg _ host _ ops * ops, 
irq_ hw_ number tinval _ irg) 

| 


该 函数 一 共有 四 个 输入 参数 ,如 下 : 

@ revmap type 参数 可 以 为 IRQ_ HOST _ MAP _ LEGACY,IRQ_ HOST _ MAP _ 
NOMAP,IRQ_ HOST_MAP _ LINEAR 或 者 IRQ_ HOST_MAP _TREE, 其 含义 如 
6.2.1 性 所 示 。 对 于 MPC8541 处 理 器 ,该 参数 的 值 为 IRQ_ HOST _ MAP _LINEAR。 

9 revmap _ arg 参数 记录 在 当前 系统 中 ,一 共有 多 少 个 硬件 中 断 号 。 

@ ops 参数 记录 当前 irq ”host 结构 的 操作 函数 指针 . 

einval _ irq 参数 记录 Spurious 中 断 使 用 的 软件 中 断 号 , Spurious 中 断 的 详细 说 明 见 
:2 节 ， 


struct irg _ host * host:; 

unsigned int size = sizeof(struct irg _ host); 
unsigned int i; 

unsigned int * rmap: 


unsigned long flags; 


A¥ Allocate structure and revmap table 让 using linear mapping * / 
if (revmap_ type == IRQ_ HOST MAP _LINEAR) 
size += revmap _ arg # sizeof(unsigned int); 


irqg _ alloc _ host 函数 首先 计算 当前 irq _ host 结构 所 使 用 的 物理 内 存 大 小 。 如 果 当 前 irq _ 
host 采用 线 型 结构 ( 即 revmap _ type 参数 为 IRQ_ HOST _ MAP _LINEAR) 时 ,irq _ host 续 构 
和 revmap 表 使 用 同一 段 物理 地 址 空间 。 
203 


如 果 revmap 表 中 的 对 应 位 是 IRQ_NONE, 则 表示 该 硬件 中 断 号 没有 与 Linux PowerPC 
中 的 软件 中 断 号 建立 映射 关系 ; 若 不 是 IRQ_NONE , 则 表示 该 硬件 中 断 号 已 经 与 Linux Pow- 
erPC 中 的 软件 中 断 号 建立 映射 关系 。 

在 revmap 表 中 存放 着 与 硬件 中 断 号 对 应 的 软件 中 断 号 ,该 表 也 被 称 作 反 向 中 断 映 射 表 
(Reverse Map)。Linux PowerPC 使 用 irq _ host 的 revmap ”data.linear.revmap 参数 保存 这 个 
反 向 中 断 映射 表 。 当 程序 员 使 用 IRQ_ HOST_ MAP _ LINEAR 进行 硬 软 件 中 断 映射 时 , 反 
回 中 世 映 射 表 revmap 将 存放 在 当前 的 irq _ host 结构 之 后 ,其 结构 如 图 6-2 所 示 

反问 中 断 映 射 表 是 与 中 断 映射 表 相 对 而 言 的 .在 i 
Linux PowerPC 中 ,还 存在 为 外 一 张 中 断 映射 表 。 Linux Wn 使 用 的 空间 
PowerPC 使 用 全 局 数组 irq _ map 保存 这 张 表 ,该 全 局 数 remap 一 一 wm”| 中 断 映射 表 
组 用 来 保存 软件 中 断 号 与 硬件 中 断 号 之 间 的 映射 关系 , 它 
在 . /arch/powerpc/kernel/irg.c 文件 中 。 下 文 将 详细 讨论 
这 两 张 表 的 使 用 方法 。 

i{ (mem _ init _ done) 

host = kzalloc(size,GFP _ KERNEL); 
else | 

host = alloc _ bootmem!(size); 

if (host) 

memset( host,0,size) ; 

| 
过 (host == NULL) 

return NULL; 






图 6-2 irg _ host 结构 和 中 断 映 射 表 


7 关 Fill structure * / 

host- >revmap _ type = revmap _ type; 
host- >inval _irg = inval _ irg; 
host- > ops = ops; 

这 段 程序 使 用 kzalloc 国 数 或 者 alloc .bootmem 国 数 为 irg _ host 结构 和 中 断 上 映射 表 申 请 
物理 内 存 空 间 。 当 mem _ init .done 变量 为 1 时 ,表示 mem _ init 函数 已 经 执行 完毕 ,SLAB 分 
配 寿 已 经 被 初始 化 ,此 时 可 以 使 用 kzalloc 函数 在 SLAB 分 配器 中 分 配 物理 内 存 ;和 否 者 只 能 使 
用 alloc bootmem 畏 数 在 Linux 的 Boot Memory 中 申请 物理 内 存 空间 。SLAE 分 配器 和 Boot 
Memory 的 详细 描述 见 第 7 章 。 

无 论 使 用 kzalloc 还 是 alloc bootmem 函数 ,irg _ host 结构 使 用 的 物理 内 存 大 小 都 为 irg _ 
host 第 攀 和 中 断 映 刺 表 revmap _ type 所 需 空间 之 和 。irq _ host 结构 分 配 完毕 后 ,将 revmap _ 
type,inval _ irq 和 ops 参数 初始 化 。 

spin_ lock_ irqgsave( &irq _ big_ lock, flags); 
if (revmap _ type == IRQ_ HOST MAP _ LEGACY) | 


| 


list _ add{ 芒 host- >link, &irg hosts); 
spin_ inlock irqrestore(&irg big _ lock ,flaps) ; 


这 段 程序 将 当前 的 irq _ host 结构 加 入 到 irq _ hosts 链表 中 。 由 于 irq_host 结构 是 一 个 临 
界 资源 ,因此 需要 使 用 自 旋 锁 将 irq _ hosts 链表 锁定 。 


switchtrevmap _ type) | 


case IRQ_ HOST MAP LINEAR: 
rmap = (unsigned int * )}(host + 1); 
for (i = 0;i < revmap_ arg;i++ ) 
rmapli] = IRQ_ NONE; 
host- > revmap _ data. linear .size = revmap _ arg; 
smp_ wmb( ); 
host->revmap _ data. linear.revmap = rmap:; 
break : 
default: 
break; 
| 
pr __ debug( irg: Allocated host of type %d @0Ox%p \ n ,revmap _ type, host); 
retum host; 
| /x Endirq _ alloc host */ 


该 段 程序 的 执行 流程 如 下 : 
@ 当 revmap _ type 参数 为 IRQ HOST MAP _LINEAR 时 .将 rmap 指 回 irq _ host 结构 
之 后 的 中 断 映射 表 revmap-。 
@ 将 中 断 瞻 射 表 revmap 中 的 所 有 Entry 置 为 IRQ_ NONE。 
@ 切 始 化 revmap data.linear 的 revmap _ arg 和 revmap 参数 。 
@ 最 后 将 irg _ alloc _ host 函数 返回 。 至 此 反 向 中 断 映射 表 中 所 有 Entry 被 初始 化 完毕 . 
6. mpic _ alloc 函数 
在 Linux PowerPC 中 ,一 个 处 理 器 系统 的 每 个 MPIC 中 断 控制 器 都 有 目 己 的 mpic 结构 。 
mpic ”alloe 函数 的 主要 作用 是 为 mpic 结构 分 配 空间 ,之 后 初始 化 这 个 结构 。mpic _ alloe 函数 
的 返回 值 指向 新 建立 的 mpic 结构 .该 函数 一 共有 以 下 6 个 输入 参数 : 
stract mpic # __ init mpic_ alloc(strnuct device_ node * node, 
phys_ addr _+t phys _ addr, 
unsigned int flags, 
unsigned int isu _ size, 
unsigned int irg _ count, 
const char * name) 


| 


@ node 参数 。 该 参数 存放 当前 MPIC 中 断 控 制 器 使 用 的 Device Node。Device Node 在 
Linux PowerPC 初始 化 时 创建 。 
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9 phys _ addr 参数 。 该 参数 存放 当前 MPIC 中 断 控 制 器 使 用 的 基地 址 ， 

@ flags\isu _ size 和 irq _ count 参数 。flags 参数 存放 mpic 结构 的 flags 参数 ,mpic_alloc 函 
数 将 对 flags 参数 进行 分 析 。 有 关 flags ,isu _ size 和 irg _ count 参数 的 详细 信息 请 参考 
i 

struct mpic * mpic; 
u32 reg; 

const char * vers; 
int 1 


ubd paddr = phys _ addr; 


mpic = alloe_ boormem( sizeof(struct mpic) ); 
if (mpic == NULL) 
returm NULL; 


memset( mpic, 0, sizeof{( struct mpic) ); 
mpic- >name = name; 
mpic->of_node = node ?of node_ get(node) :NULL; 


mpic _ alloc 图 数 首先 使 用 alloc ”bootmem 函数 ,在 Linux 系统 的 Boot Memory 中 ,申请 
mpic 结构 所 使 用 的 物理 地 址 空间 。 在 Linux PowerPC 中 ,mpic _alloc 函数 执行 时 ,mem _init 
图 数 还 没有 被 执行 .因此 mpic 结构 只 能 使 用 Boot Memory 中 的 物理 地 址 空间 。 有 关 Boot 
Memeory 的 详细 傅 息 请 参考 7.2.4 节 .随后 mpic _ alloe 国 数 将 mpic 续 构 初始 化 为 0, 并 初始 
化 mpic 结构 中 的 name 参数 和 of _ node 参数. 


mpic->irghost = irg_alloe_ host(IRQ_ HOST MAP LINEAR,256, 
&mpic _ host _ ops, 
MPIC_ VEC_ SPURRIOUS); 
让 (mpic- >irqhost == NULL) | 
of_node_ put(node); 
return NULL; 
| 


mpic _ alloc 图 数 调用 irq__alloc_host 函数 ,初始 化 mpic 结构 的 irq _ host 参数 。 该 函数 的 
返回 值 指向 新 建立 的 irqhost 结构 。irq _ alloc _ host 函数 共有 四 个 参数 ,分 别 为 revmap _ type、 
revmap _ arg\ops 和 inval _irq。 

对 于 ES00 内核, mpic _alloc 函数 在 调用 irq _ alloc “host 函数 时 ,revmap _ type 参数 为 
IRQ_HOST_MAP_LINEAR, 表 示 当 前 irq _ host 结构 采用 线 型 结构 建立 处 理 器 系统 的 软 硬 
件 中 断 号 之 间 的 映射 ;revmap _ arg 参数 为 256 ,表示 反 向 中 断 映 射 表 的 大 小 为 256 个 字 节 ;ops 
参数 为 全 局 变量 mpic _ host _ ops, 用 来 指向 irq _ host 结构 使 用 的 irqg_host _ ops 图 数 集 ， 

mpic- >irghost- >host_ data = mpic; 
mpic->he_irg = mpic_irg_ chip; 
mpic->hec_ irg.typename = name; 
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if (flags 芒 MPIC_ PRIMARY) 
mpic->hc_ irg.set _ affinity = mpic_ set _ affnity; 


mpic- > flags = {lags; 
mpic- >isu_ slize = 1SU slize; 
mpic- >irg _ count = irg_ count; 


mpic- 之 num _ sources = 0;/¥% sofar */ 


这 段 代码 的 执行 顺序 如 下 : 

1) 将 mpic->he_irq 赋值 为 mpic _irq _ chip。he_irg 为 irq _chip 类 型 的 数据 ,由 上 文 可 
知 ,irq _ chip 结构 主要 用 来 描述 硬件 中 断 控制 器 的 属性 。 在 mpic _irq _ chip 结构 中 ,使 能 中 
断 、 屏 项 中 断 、 啊 应 中 断 与 设置 中 断 类 型 的 操作 晴 数 分 别 为 mpic _mask _ irq、mpic_ unmask _ 
irqg.mpic end _ irg 和 mpic_set_ irg _ types 

2) 判断 当前 分 配 的 mpic 结构 的 flags 参数 是 否 有 MPIC_ PRIMARY 标志 ,如 果 有 则 将 
其 he _ irg 参数 的 set _affinity 函数 赋值 。Linux PowerPC 规定 只 有 Primary MPIC 控制 冀 可 
以 为 中 断 源 设置 亲 和 性 属性 。 在 Linux SMP 中 ,可 以 指定 某 个 中 断 源 由 与 它 亲 和 的 CPU 进 
行 处 理 。 

3) 最 后 将 mpic 结构 的 flags, isu ”size, isu count 和 num 。 sources 赋值 。 在 
MPC85XXCDS 处 理 器 系统 中 ,flags 的 值 为 MPIC_ PRIMARY | MPIC_ WANTS_ RESET | 
MPIC_ BIG_ ENDIAN ,其 食 义 见 上 文 ;isu _ size 的 值 为 4 表示 在 ISU 中 的 中 断 个 数 为 4;irq _ 
count 和 num source 参数 被 初始 化 为 0。 


A Map the global registers ¥* / 
mpic_ map( mpic, paddr, &mpic- >gregs, MPIC_ INFO(GREG _ BASE) ,0x1000); 
mpic_ map(mpic, paddr, &mpic- > tmregs, MPIC _ INFO( TIMER _ BASE) ,0x1000):; 


这 段 程序 将 MPIC 中 断 控 制 器 的 Global Registers 和 Global Timer Registers 进行 虚实 地 址 
映射 ,并 使 用 gregs 和 tmregs 保存 这 些 寄 人 存 音 组 的 虚拟 地 址 


A¥ Reset */ 
if (flags 此 MPIC WANTS RESET) | 
mpic_ write(mpic- > gregs, MPIC_ INFO(GREG _ GLOBAL _ CONF _0), 
mpic_ read(mpic- > gregs, MPIC_ INFO(GREG _ GLOBAL _ CONF _ 0)) 
| MPIC_ GREG GOONF RESET):; 
while( mpic_ read(mpic- > gregs, MPIC_ INFO(GREG _ GLOBAL _ CONF _ 0)) 
& MPIC_ GREG_ GCONF RESET) 
mb( ); 
| 


这 段 程序 根据 flag 参数 ,确定 是 否 需 要 对 MPIC 中 断 控制 器 进行 复位 。 如 果 需 要 复位 , 则 
向 MPIC 中 断 控 制 器 中 的 Global Configuration Registers 寄存 器 的 及 位 写 1, 当 MPIC 中 断 控 
制 器 复位 完成 后 ,此 位 将 被 目 动 清 零 . 
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reg = mpic_ read(mpic->gregs, MPIC_ INFO(GREG_ FEATURE 0)); 
mpic->num _ cpus = ((reg & MPIC_ GREG_ FEATURE LAST CPU MASK) 
>> MPIC_GREG FEATURE LAST CPU SHIFT) + 1: 
让 (isu _ size == 0) 
mpic->num _ sources = ((reg & MPIC_ GREG FEATURE_LAST_SRC MASK) 
>> MPIC_GREG FEATURE LAST SRC_ SHIFT) + 1; 


这 有 段 程序 读 取 MPIC 中 断 控 制 器 的 Feature Reporting Register 0 寄存 器 ,获得 当前 中 断 控 
制 器 的 版 本 号 ,支持 的 CPU 数量 和 支持 的 外 部 中 断 数量 ,之 后 对 mpic 结构 的 num _ cpus 和 
num sources 参数 赋值 


/# Map the per-CPU registers * / 
for (i = 0;i < mpic->nmm cpusii++) | 
mpic _rmaptmpic,paddr, 必 mpic- > cpuregs[i], 
MPIC_ INFO(CPU _BASE) + i * MPIC_ INFO(CPU _ STRIDE) ， 
0x1000); 


/<# Tntalize main TSU if none provided ¥* / 
if (mpic->isu_ Size == 0) | 
mpic- >isu_ size = mpic->mm sources; 
mpic _map( mpic, paddr. &mpic- > isus[ 0 | ，, 
MPIC_ INFO(IRQ _ BASE), MPIC_ INFO(IRQ _ STRIDE) * mpic >isu size); 
| 
mpic->isu_ shift = ] + _ ilog2(mpic->isu size - 1); 
mpic->isu_ mask = (1 << mpic->isu shift) - 1; 
这 段 程序 首先 使 用 ioremap 函数 ,将 MPIC 中 断 控制 器 中 的 Per Processor Registers 寄存 
莫 进 行 虚拟 地 址 映射。 在 MPC8541CDS 处 理 器 系统 中 一 共 支 持 1 个 CPU, 因 此 只 需要 对 一 
组 Per Processor Registers 进行 虚拟 地 址 上 映射 
如 有 果 isu _ size 为 0, 则 表示 不 使 用 MPIC 中 断 控制 器 的 ISU 分 组 功能 ,此 时 所 有 的 中 断 源 
将 独立 设置 ,并 将 MPIC 中 断 控 制 器 中 的 Interrupt Source Configuration Registers 进行 虚拟 地 
址 映射 - 在 MPC8541CDS 处 理 器 系统 中 .isu _ size 为 4 表示 使 用 ISU 分 组 功能 。 
需要 提醒 读者 注意 :在 MPC8541 处 理 器 中 ,PIC 中 断 控制 器 实际 上 并 不 支持 中 断 的 ISU 
分 组 功能 , 但 是 考虑 到 与 IBM 的 MPIC 中 断 控制 器 兼容 , Freescale 的 工程 师 还 是 将 isu size 
说 为 4, 以 便 使 用 mpic_assign _ isu 函数 进一步 设置 每 一 个 外 部 中 断 源 。 对 于 MPC8541 处 理 器 ， 
isu_size 为 0 或 者 32 都 是 可 以 的 ,将 isu _ size 的 值 设置 为 32 后 ,以 后 的 源 代 码 还 会 更 精炼 些 。 
之 后 这 段 程序 将 isu_shift 和 isu_ mask 赋值 . 对 于 MPC8541CDS 处 理 器 系统 ,isue size 
参数 为 4- 因此 isu__shift 参数 为 2, 而 isu_ mask 参数 为 0x00000003 


mplc- > next = mpics; 
mpics = mpic; 
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if (flags 及 MPIC PRIMARY) | 
mpic _ primary = mpic; 
irq_ set _ default_ host(mpic- > irqghost): 
| 
return mpic; 
| 
这 段 程序 对 全 局 变量 mpics 和 mpic _ primary 进行 赋值 ,之 后 Linux 系统 使 用 全 局 变量 
mpic _ primary 和 mpics 访问 当前 处 理 器 系统 的 mpic 结构 。 最 后 mpic _alloc 函数 将 获得 的 
mpic 变量 作为 返回 值 


6.2.3 使 用 MPIC 中 断 控 制程 序 对 中 断 系 统 初始 化 


下 文 以 Freescale 的 MPC8541CDS 处 理 器 系统 为 例 , 说 明 Linux PowerPC 外 部 中 断 系 统 的 
初始 化 。 如 果 用 户 在 编译 Linux 内 核 时 使 用 arch = ppe 时 系统 将 使 用 基于 OpenPIC 中 断 控 制 
让 的 源 代 码 进 行 中 断 系 统 的 初始 化 .如 果 用 户 使 用 arch = powerpc 编译 内 核 , 系统 将 使 用 基于 
MPIC 中 断 控 制 妖 的 源 代码 初始 化 外 部 中 断 系 统 ， 

与 MPIC 中 断 处 理 程序 相 比 ,OpenPIC 中 断 处 理 程序 的 历史 更 加 悠久 。 但 是 对 于 Linux 
系统 ,有 时 后 加 入 的 代码 更 加 成 熟 ,也 更 加 稳定 些 。 在 Linux PowerPC 中 ,MPIC 中 断 处 理 程 
序 代表 着 未 来 的 方向 。 也 许 在 不 久 的 将 来 ,OpenPIC 中 断 处 理 程序 将 会 逐渐 被 淘汰 。 因 此 本 
文 将 主要 讲述 如 何 使 用 MPIC 中 断 处 理 程序 ,初始 化 Linux PowePC 外 部 中 断 系 统 . 

Linux 系统 使 用 init _IRQ 函数 对 外 部 中 断 系统 进行 初始 化 .init _IRQ 函数 分 别 调用 两 
个 函数 ppc _md.init _IRQ 和 jirq ctx_ init, 

vod _ init init TIRQCveoid) 
ppe_ md.init_ IRQ(); 

# ifdef GONEIG PPC64 
irq_ ctx _ init(): 

tendif 

| 

ppc _ md.init _ [RQ 函数 与 支持 的 人 处理 器 系统 有 直接 的 关系 。 在 MPC8541CDS 处 理 器 系 
统 中 ,ppc _ md.init -IRQ 的 值 等 于 mpc85xx cds pic init。 有 关 ppc _ md 结构 初始 化 赋值 
的 详细 介绍 见 8.2.5 节 

irg _ ctx _ init 函数 用 来 设置 独立 的 中 断 堆 栈 。 目 前 Linux PowerPC 中 ,只 有 一 些 64 位 的 
PowerPC 处 理 锅 采用 独立 的 中 断 堆 栈 。 即 便 如 此 .使 用 条 件 编 译 参 数 CONFIG _ PPC64 判断 
是 否 执 行 irg _ ctx _ init 函数 仍然 不 妥当 。 因 为 也 许 以 后 .Linux PowerPC 会 在 32 位 处 理 器 中 
使 用 独立 的 中 断 堆栈 。 

有 的 实时 操作 系统 ,如 VxWorks, 使 用 独立 的 中 断 堆栈 处 理 外 部 中 断 。 采 用 这 种 方案 的 
优点 是 可 以 将 中 断 堆 栈 与 其 他 进程 的 堆栈 隔离 ,有 利于 堆栈 空间 的 维护 。 而 且 在 CPU 进入 中 
断 处 理 程序 时 ,不 用 建立 中 断 处 理 程序 使 用 的 堆栈 空间 . 
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采用 独立 的 中 断 堆 栈 在 一 定 程度 上 ,可 以 缩短 中 断 处 理 延 时 。 但 是 使 用 这 种 方法 在 维护 
中 断 堆 栈 时 ,操作 系统 在 进入 和 退出 中 断 处 理 程序 时 ,需要 进行 中 断 堆 栈 空间 的 切换 ,从 而 又 
增加 了 一 些 中 断 处 理 延 时 。 因 此 采用 独立 的 中 断 堆栈 也 许 并 不 能 缩短 中 断 处 理 延 时 。 目 前 尚 
未 发 现 采 用 独立 的 中 断 堆 栈 可 以 缩短 中 断 处 理 延 时 的 权威 性 文章 。 不 过 可 以 肯定 的 是 ,采用 
这 种 方法 有 利于 维护 中 断 程 序 的 堆栈 空间 ， 
在 MPC8541CDS 处 理 器 系统 中 ,Linux PowerPC 使 用 mpc85xx _ cds _ pic _ init 函数 初始 
化 外 部 中 断 处 理 系统 。 
mpc8Sxx _cds _ pic _ init 图 数 在 ,/arch/powerpc/platforms/85xx/mpc85xx _ cds.c 文件 
中 。 该 函数 进行 了 以 下 初始 化 步 又 : 
1) 使 用 Open Fireware 机 制 ,获得 MPC8541CDS 处 理 器 系统 的 中 断 探 制 器 信息 。 
2) 调用 mpic _ alloc 国 数 , 为 mpic 结 爸 分 配 内 存 空间 并 进行 基本 的 初始 化 
3) 使 用 mpic _ assign _ isu 函数 ,对 MPC8541 处 理 器 的 中 断 控 制 器 与 中 断 源 相关 的 物理 
地 址 进行 虚实 地 址 映射 。 
4) 使 用 mpic _init 函数 对 MPIC 中 断 控 制 器 进行 初始 化 ， 
1. 获得 MPIC 中 断 控制 器 的 信息 
mpc8Sxx _ cds _ pic _ init 图 数 没 有 输入 参数 ,也 设 有 返回 值 。 该 函数 的 源 代 码 如 下 : 
void _ init mpc8Sxx _ cds_ pic init(void) 
| 
struct mpic * mpic; 
Struct resource 7 
struct device_ node * np = NULL: 
#ifdef CONFIG_ PPC_ I8259 
struct device_ node # cascade node = NULL:; 
int cascade _ irg; 
# endif 


np = of_ find_node_ by _ type(np, open-pic ); 


i{ (np == NULL) | 
printk(KERN _ ERR “Could not find open-pic node \ n ); 
retum; 
| 
ff (of address _ to_ resource(np,0, &r)) | 
printk(KERN _ ERR “Failed to map mpic register space Nm ); 
of _ node_ put(np): 
return; 
mpc85xx _ cds _ pic _ init 图 数 首 先 调用 of _ find_node_ by _ type 函数 获得 MPC8541CDS 
处 理 器 系统 的 有 关中 断 控 制 器 的 device _ node 结构 ,并 存放 到 变量 np 中 ，MPC8541CDS 处 理 
器 系统 中 断 控 制 器 信息 存放 在 . /arch/powerpc/boot/dts/mpc8541cds,dts 文件 中 ,该 文件 包含 
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了 MPC8541CDS 处 理 器 系统 上 的 所 有 资源 信息 。 在 Linux PowerPC 中 ,使 用 Open Fireware 
构架 管理 所 有 的 硬件 资源 ,并 为 每 一 个 硬件 资源 设立 一 个 device _ node 结构 。 

mpc85xx eds pic _ init 函数 使 用 device ”node 结构 ,调用 of address to resource 国 
数 ,进一步 获得 对 这 些 硬件 资源 进行 描述 的 信息 ,并 将 这 些 信息 保存 在 resource 结构 中 。re- 
source 结构 的 信息 主要 包括 该 中 断 控制 器 使 用 内 存 的 开始 地 址 和 结束 地 址 。 

Open Fireware 构架 包含 一 组 操作 函数 集 OP API. 包 人 台 了 一 系列 以 op 开头 的 图 数 。 在 
mpc85xx _ cds _ pic _ init 图 数 中 ,使 用 的 of find node _ by type 和 of _ address to resource 
图 数 属于 这 个 函数 集 。 

2, 初始 化 mpic _ alloc 结构 

Linux PowerPC 可 以 支持 多 个 MPIC 中 断 控 制 器 ,其 中 每 一 个 中 断 控 制 器 唯一 对 应 一 个 
mpic 结构 。Linux PowerPC 使 用 mpic _ alloe 函数 初始 化 mpic 结构 。mpc85Sxx_ cds_ pic _ init 
负数 使 用 以 下 语句 调用 mpic _ alloc 图 数 : 


mpic = mpic_ alloc(np,r. start, 
MPIC_ PRIMARY | MPIC_ WANTS_ RESET | MPIC_ BIG_ ENDIAN, 
4,0，OpenPIC “); 

BUG _ ON(mpic == NULL); 


/7# Retum the mpic node */ 
of_ node_ put(np); 


mpc85XX _ cds _ pic _ init 图 数 在 调用 mpic _ alloe 函数 时 ,irq _ count 参数 为 0, 表示 在 当 
前 处 理 北 系统 中 有 效 的 中 断 源 与 mpic 结构 中 的 中 断 数 量 相 等 ;flags 参数 为 MPIC _ PRIMA- 
RY | MPIC_WANTS_RESET | MPIC_ BIG_ ENDIAN ,表示 mpic _ alloc 函数 即将 为 Pri- 
mary MPIC 中 断 控制 器 分 配 mpic 结构 ,采用 大 端 方式 访问 该 控制 部 内 部 的 寄存 器 ,同时 需要 
对 中 断 控制 器 进行 复位 。 

3. mpic _ assign _isu 函数 

mpc85xx _ cds _ pic _init 函数 在 初始 化 mpic 结构 后 ,使 用 mpic _ assign _isu 函数 对 MPIC 
中 断 控 制 器 的 Interrupt Source Configuration Registers 寄存 项 进行 虚实 地 址 转换 ， 


mpic assign_ isu(mpic,0,r.start + 0x10200); 
mpic assign_ isu(mpic, 1,r.start + 0xl0280) ; 
mpic assign _ isu(mpic,2,r.start + 0x10300):; 
mpic assign _ isu(mpic, 3,r.atart + Ox10380); 
mpic assign _ isu(mpic,4,r.start + OQx10400); 
mpic assign isu(mpic,S,r.start + Ox10480); 
mpic _ assign _ isu(mpic,6.r.start + Ox10500); 
mpic assien isu(mpic,7,r.start + OQx10580); 


在 上 述 代码 中 ,mpc85xx _ cds _ pic _ init 图 数 调 用 mpic _ assign _ isu 函数 ,对 MPC8541 处 
理 器 中 的 IIVPR0 一 31 和 IIDR0 一 31 寄存 器 组 进行 虚实 地 址 转换 。mpic ”assign _ isu 函数 调 
用 ioremap 函数 ,将 MPIC 中 断 控 制 器 中 的 IIVPR 和 IIDR 寄存 器 组 映射 到 Linux 系统 的 虚拟 
地 址 空间 中 ， 
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在 MPC8541 处 理 融 中 ,一 共有 32 对 IIVPR 和 IIDR。Linux PowerPC 将 这 32 对 寄存 器 
每 4 个 分 为 一 组 ,一共 使 用 8 组 ISU 来 描述 这 些 寄存 器 。 其 中 第 1 组 ISU 与 IIVPR0 一 3 和 
IIDR0 一 3 寄存 器 对 应 ,而 第 8 组 ISU 与 IIVPR28 一 31 和 IIDR28 一 31 寄存 器 对 应 . 
IIVPRO0 寄存 右 相 对 中 断 控制 器 PIC 基地 址 的 偏 移 为 0x10200, 而 IIVPR28 寄存 器 相对 
中 断 控制 器 PIC 基地 址 偏 移 为 0x10580。MPC8541 处 理 器 并 不 支持 ISU 结构 ,因此 不 将 这 32 
对 寄存 器 进行 分 组 也 是 可 以 的 
A/¥ Used only {or 8548 so far,but no harm in 
* allocating them for everyone * / 
mpic_ assign isu(mpic.8,r.start + 0xl0600) ; 
mpic_ assign _ isu(mpic,9,r.start + Ox10680); 
mpic_ assign _ isu(mpic, 10,r.start + Ox10700); 
mpic_ assign _ isu(mpic, ll1,r.start + Ox10780); 


MPC8548 处 理 器 一 共有 48 组 IIVPR0 一 47 和 IIDR0 一 47 寄存 器 ,因此 以 上 代码 的 主要 
目的 是 对 IIVPR32 一 47 和 IIDR0 一 47 寄存 器 进行 虚实 地 址 转换 。 对 于 MPC8541 处 理 器 ,以 
上 代码 是 元 余 的 。 

A”¥* External Interrupts * / 

mpic _ assign _ isu(mpic, 12,r.start + OQx10000); 
mpic assign _ isu(mpic,13,r.start + 0x10080); 
mpic _ assign _ isu(mpic, 14,r.start + OQx10100); 


mpc85xx _ cds _ pic _ init 函数 继续 调用 mpic assign _ isu 函数 对 MPC8541 处 理 器 中 的 
EIVPR0 一 11 和 EIDRO0 一 11 寄存 器 组 进行 虚实 转换 。 在 MPC8541 处 理 器 中 ,一 共有 12 对 
EIVPR 和 EIDR 寄存 器 ,因此 在 Linux PowerPC 中 一 共 使 用 3 组 ISU。 

其 中 第 13 组 ISU 与 EIVPR0 一 3 和 EIDR0 一 3 寄存 器 对 应 ,而 第 15 组 ISU 与 EIVPR8 一 
11 和 EIDR8 一 11 寄存 器 对 应 。EIVPR0 寄存 器 相对 中 断 控制 器 PIC 基地 址 偏 移 为 0x10000， 
而 IVPRS8 寄存 器 相对 中 断 控制 器 PIC 基地 址 偏 移 为 0x10100 

至 此 ,Linux PowerPC 将 MPC8541 处 理 器 中 所 有 与 MPIC 中 断 控制 器 相关 的 寄存 器 都 映 
射 到 了 虚拟 地 址 空间 。 

4. MPIC 中 断 控制 器 的 初始 化 

在 mpic _ assign _ isu 图 数 为 MPIC 中 断 控制 器 中 的 Interrupt Source Configuration Regis- 
ters 进行 虚拟 地 址 映射 后 ,mpc85xx_ cds _ pic _ init 函数 使 用 mpic _ init 函数 对 MPIC 中 断 控 
制 器 进行 最 后 的 初始 化 。 


mpic _ init{ mpic); 
| /#* End mpcBSxx cds_ pic_init ¥/ 

在 6.2.2 市 中 ,mpic _ alloe 函数 对 mpic 结构 进行 了 许多 初始 化 处 理 , 但 是 那些 初始 化 操 
作 仅 仅 是 软件 意义 上 对 MPIC 中 断 控制 器 的 初始 化 : 

mpic _ init 图 数 对 MPIC 中 断 控 制 器 中 的 寄存 器 进行 操作 ,完成 硬件 意义 上 对 MPIC 中 断 
控制 器 的 初始 化 .mpic _ init 函数 只 有 一 个 输入 参数 mpic, 该 参数 用 来 指向 mpic 结构 。 该 函 
数 没有 返回 值 , 其 详细 描述 如 下 所 示 : 
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/x mpic_init 函数 源 代码 片段 1 x / 
void _ init mpic init(struct mpic * mpic) 
| 


int 1 


BUG _ ON(mpic- >num _ sources == 0); 

WARN _ ON(mpic->num _ sources > MPIC_ VEC _ IPI _0); 

A Sanitize source count * / 

if (mpic->num _ sources > MPIC_ VEC _ {PI 0) 
mpic->num _ sources = MPIC_ VEC _ IPI _0; 


printk( KERN __ INFO “mpic: Initializing for %d sources \ n ,mpic->num _ sources); 


A Set current processor prionity to max ¥ / 
mpic_ cpu_ write( MPIC_ INFO(CPU CURRENT TASK PRIL) ,0x{):; 


A# Jnitialize timers:just disable them all * / 
for (i = 0;i < 4;i++) | 
mpic write( mpic- > tmregs, 
i ¥* MPIC_ INFO(TIMER _ STRIDE) + 
MPIC_ INFO(TIMER _ DESTINATION) ,0); 
mpic _ writel mpic- > tmregs, 
i * MPIC INFO(TIMER STRIDE) + 
MPIC INFO(TIMER _ VECTOR _ PRI1), 
MPIC_ VECPRI_ MASK | 
(MPIC_ VEC_ TIMER 0 + i)); 
| 


xx mpic init 函数 源 代码 片段 2 */ 


for (i = 0;i < mpic->num_ sources;it++ ) | 
/A#¥ start with vector = source number,and masked */ 
U32 vecpri = MPIC_ VECPRI MASK | ji 
(8 << MPIC_ VECPRI _ PRIORITY _ SHIFT); 


mpic _ init 肾 数 首先 对 num sources 参数 进行 边界 检查 。 之 后 该 明 数 将 Per Processor 
Registers 中 的 Current Task Priority Registers 赋值 为 0xf。MPIC 中 断 控制 紫 可 以 为 每 一 个 中 
断 设 置 优先 权 ,当中 断 的 优先 权 不 大 于 Current Task Priority Registers 寄存 筑 时 ,此 中 断 不 能 
通过 int 共 或 者 cint 症 倩 号 传递 给 CPU 

Current Task Priority Registers 寄存 器 的 最 大 值 为 0xf ,此 时 将 禁止 所 有 中 断 ,因为 外 部 中 
断 优先 权 的 最 大 值 为 0xf。 在 PowerPC 体系 中 一 般 使 用 MSR 寄存 器 中 的 EE 位 禁止 或 者 打 
开 中 断 。 之 后 ,该 图 数 对 MPIC 中 断 控制 器 中 的 4 个 Global Time Register 进行 初始 化 . 
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ZX init hw ¥/ 
mpic _irq write(i,MPIC__INEOURQ _ VECTOR _ PRI) ,vecpri): 
mpic _irq write(li, MPIC _ [INFO(IRQ _ DESTINATION), 
1 << hard smp_ processor _ id()); 
| 


这 段 程序 将 MPIC 中 断 控制 器 中 的 Vector/Priority 寄存 器 使 用 mpic _ irqg _ write 函数 进 
行 初始 化 。 将 其 中 的 “vecpri = MPIC_ VECPRI_ MASK| i|(8 << MPIC_ VECPRI PRI- 
ORITY _ SHIFT) 改 为 "vecpri = MPIC_ VECPRI_ MASK|(8 << MPIC_ VECPRI _ PRIORI- 
TY_SHIFT) 上 逻辑 上 更 好 些 ,因为 1 字段 实际 上 是 Vector/Priority 寄存 器 的 最 后 一 个 字段 

这 段 程 序 是 mpci _init 函数 最 重要 的 部 分 。 在 这 个 for 循环 中 ,使 用 mpic _ irq _ write 国 
数 对 MPIC 中 断 控 制 右 的 所 有 内 部 中 断 和 外 部 中 断 Vector/Priority 寄存 器 的 字段 进行 赋值 ， 
其 中 VEC 字段 保存 对 应 寄存 器 的 硬件 中 断 号 。 当 发 生 外 部 中 断 时 ,外 部 中 断 处 理 程序 将 读 取 
中 断 啊 应 寄存 器 IACK 获得 此 硬件 中 断 号 ,并 通过 此 硬件 中 断 号 判断 中 断 类 型 。 

mpic _ irg _ write 图 数 的 源 代 码 如 下 所 示 : 


mpic_irg_ write(i, MPIC_ INFO(IRQ_ VECTOR _ PRI) ,vecpn) 二 
_ mpic_ irg_ write(mpic,i, MPIC_ IRQ_ VECTOR _ PRI, vecpri) 
| 

unsigned int isu = i >> mpic->isu _ shift: 

Unsigned int idx = i&& mpic->isu_ mask; 

_ mpic_ write(mpic- >{lags & MPIC_ BIG_ ENDIAN ,mpic- >isus| isu | ， 

MPIC_ IRQ_ VECTOR _ PRI + (idx * MPIC_ [INFO(IRQ _ STRIDE)),vecpri); 

| 


在 mpic _init 的 源 代码 中 .可 以 发 现在 for 循环 的 mpic _irq _ write 函数 将 Vector/Priority 
奇 存 器 中 的 MSK 位 初始 化 为 1, 屏 项 该 中 断 源 ; 将 P 位 和 S 位 初始 化 为 0; 将 PRIORITY 字段 
初始 化 为 8; 将 VECTOR 字段 设置 为 i. 

由 上 文 的 mpic _ assign _ isu 函数 可 知 ,mpic 一 >isus 数组 的 第 0 一 7 项 与 MPC8541 处 理 器 
中 的 内 部 中 断 Vector/Priority 寄存 器 相对 应 ,而 mpic 一 >isus 数组 的 12 一 14 项 与 MPC8541 处 
理 融 的 外 部 中 断 Vector/Priority 寄存 器 相对 应 。 因 此 这 段 程序 执行 完毕 后 ,MPIC 中 断 控制 
售 便 件 中 断 号 0 一 31 将 与 MPC8541 处 理 器 的 内 部 中 断 号 0 一 31 一 一 对 应 ; 硬件 中 断 号 48 一 
59 与 MPC8541 处 理 器 的 外 部 中 断 号 0 一 11 一 一 对 应 。 

举例 说 明 ,如 果 MPC8541 处 理 器 的 TSEC1 transmit interrupt 中 断 来 临时 ,将 引发 中 断 响 
应 周期 ,此 时 中 断 服务 程序 将 读 取 IACK 寄存 器 获得 硬件 中 断 号 ,此 时 硬件 中 断 号 的 值 为 13; 
如 果 MPC8541 处 理 器 的 引 脚 IRQ7 有 效 时 ,将 引发 中 断 响应 周期 ,此 时 中 断 服务 程序 将 读 取 
IACK 寄存 硕 获 得 硬件 中 断 号 ,此 时 硬件 中 断 号 的 值 为 7+ 48 = 55。 

A* mpic _ init 函数 源 代码 片段 3 * 7 
/¥ Init spurrious Vector ¥* / 
mpic_ write(mpic- >gregs, MPIC_ INFO(GREG_ SPURIOUS), MPIC_ VEC_ SPURRIOUS); 
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/7# Disable 8259 passthrough,if supported 关 7 
计 (1 (mpic->flags & MPIC NO PTHROU DIS)) 
mpic write( mpic- > gregs, MPIC_ INFO(GREG GLOBAL _CONF 0), 
mpic _ read( mpic- > gregs, MPIC_ INFO(GREG_ GLOBAL _ CONF _ 0)) 
| MPIC_ GREG_ GCONF _ 8259_ PTHROU _ DIS); 


/7 # Set current processor priority to 0 */ 
mpic_ cpu_ write( MPIC_ INFO(CPU_ CURRENT _ TASK _ PRLD .0); 
| /x End mpic init ¥*/ 


mpic _init 图 数 最 后 将 初始 化 Spurious 中 断 向 量 ,关闭 中 断 控制 闫 PIC 的 Passthrough 功 
能 ,将 CTPR 寄存 器 设置 为 0, 使 能 所 有 外 部 中 断 。 

mpic _init 函数 执行 完毕 后 ,mpc8S$xx _ cds _ pic _init 图 数 随 之 执行 完毕 ,从 而 完成 整个 中 
断 控 制 锅 的 初始 化 。 


6.3 设备 驱动 程序 与 外 部 中 断 处 理 系 统 的 挂 接 


在 Linux 系统 中 ,许多 外 部 设备 需要 使 用 中 断 资源 。 为 此 ,Linux 系统 提供 了 一 套 机 制 ， 
可 以 将 设备 驱动 程序 的 中 断 服务 例 程 与 Linux PowerPC 的 外 部 中 断 处 理 程 序 挂 接 , 即 与 Ex- 
ternalInput 函数 挂 接 在 一 起 ， 当 外 部 中 断 发 生 时 .ExternelInput 函数 可 以 调用 设备 驱动 程序 
的 中 断 服务 例 程 处 理 相应 的 中 断 源 。 

在 Linux PowerPC 中 ,程序 员 可 以 使 用 request _ irg 国 数 将 设备 驱动 程序 与 外 部 中 断 处 理 
国 数 ExternalInput 挂 接 在 一 起 ，Linux PowerPC 为 了 实现 这 种 挂 接 功能 ,设置 了 一 系列 全 局 


6.3.1 外 部 中 断 描 述 符 表 irq _ dese 


在 Linux 中 断 系 统 中 ,全 局 数组 irq _ desc 的 地 位 举足轻重 。 该 数组 保存 了 Linux 系统 中 
所 有 外 部 中 断 描述 符 的 信息 。Linux 系统 将 该 数组 简称 为 外 部 中 断 描述 符 表 。Linux 系统 的 
外 部 中 断 描 述 符 表 irq _ desc 在 . /kernel/irg/handle.c 文件 中 定义 ,其 源 代码 如 下 : 


ee 
这 


宁 这 束 素 过 尝 宣 党 党 于 


Linux has a controller-independent interrupt architecture. 
Every controller has a controller-template ,that is used 

by the main code to do the right thing. Each driver-visible 
interrupt source is transparently wired to the appropriate 
controller. Thus drivers need not be aware of the 
interrupt-contraller. 


The code is designed to be easily extended with new/diflerent 
interrupt controllers, without having to do assembly magic or 
having to touch the generic code. 
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# Controller mappings for all interrupt sources: 
类 A 
struct irg_ desc irg_ desc| NR_ IRQS] _ cacheline aligned = | 
[0... NR_IRQS1] = | 
.status = IRQ_ DISABLED, 
chip = &no_ irg_ chip, 
.handle_irg = handle_ bad _ irg, 
.depth = 1, 
.lock = _ SPIN_LOCK UNLOCKED(irg desc-> lock), 
ifdef CONFIG _ SMP 
-affinity = CPU MASK ALL 
# endif 
| 
上 
自 此 可 以 发 现 ,外 部 中 断 描述 符 表 一 共有 NR_IRQS 个 Entry, 并 使 用 irqa_desc 结构 描述 
每 一 个 Entry。 其 中 ,NR _IRQS 为 当前 处 理 器 系统 软件 中 断 号 的 最 大 值 。 外 部 中 断 描述 符 
表 的 每 一 个 Entry 与 Linux 系统 中 的 软件 中 断 一 一 对 应 ,该 表 描 述 Linux 系统 的 每 一 个 软件 
中 断 号 。 在 Linux PowerPC 中 ,外 部 中 断 描 述 符 表 irq _ desc 是 联系 外 部 中 断 处 理 函 数 和 外 部 
设备 中 断 服 务 例 程 之 间 的 纽带 。 
9 设备 驱动 程序 使 用 request _irq 困 数 进行 中 断 申 请 时 ,需要 将 中 断 服 务 例 程 的 人 口 地 址 


放 人 外 部 中 断 描述 符 表 中 。 
e 外 部 中 断 处 理 函 数 ExternelInput 开始 执行 时 ,需要 从 外 部 中 断 描述 符 表 中 获得 相应 的 
中 断 服务 例 程 。 


Linux 系统 使 用 irq _ desc 结构 表示 外 部 中 断 描 述 符 表 irq _ desc 的 每 一 个 Entrv,irg desc 
结构 的 定义 在 . VincludevlinuxVvirq.h 文件 中 ,其 代码 如 下 : 
struct irq _ dese | 
irq_ flow_ handler t bandle_irg; 
struct irg _ chip * chip; 


void * handler data; 
void * chip _ data; 
struct irgaction  * action; A/* [RQ action list * / 
unsigned int status; ”x IRQ status * / 
unsigned int depth; /# nested irg disables * / 
unsigned int wake _ depth:; /¥ nested wake enables * / 
unsigned int irq _ count; 7# For detecting broken IRQs */ 
unsigned int irgs_ unhandled: 

. spinlock _ t lock; 


#ifde{f CONFIG_ SMP 
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cpumask 上 affinitv; 
Unsigned int Cpus 
# endif 3 
#if defined(CONFIG_ GENERIC_ PENDING _ IRQ) | defined(CONFIG IRQBALANCE) 
cpumask _t pending _ mask:; 
# endif 
#ifdef CONFIG_ PROC _FS 
struct proc_ dir _ entry * dir; 
# endif 
const char 并 name; 


| ___ cacheline_ aligned; 


结构 irq _ desc 的 参数 如 下 : 
(1) handle _irg 参数 指向 外 部 中 断 处 理 函 数 。 在 Linux PowerPC 中 ,handle _irq 参数 指向 的 
函数 包括 handle simple _ irq、handle_ level .irg,handle fasteoi _ irg 和 handle edge_irg 等 。 
(2) chip 参数 是 irq _ chip 结构 的 参数 。 此 参数 指向 一 组 对 中 断 控 制 器 PIC 操作 的 函数 
集 , 如 ack,mask,mask _ack,unmask 和 eoi 函数 等 。 
(3) handler _ data 是 void 类 型 的 指针 。Linux PowerPC 使 用 该 参数 存放 中 断 控制 器 描述 
竺 信息 。 对 于 MPIC 中 断 控制 器 ,handler _ data 保存 mpic 结构 或 者 其 他 中 断 控制 器 的 指针 。 
具有 两 个 以 上 中 断 控 制 器 的 Linux 系统 ,需要 对 handler _ data 参数 赋值 ， 
(4) chip _data 也 是 void 类 型 的 指针 。 该 指针 指向 irq _ desc 结构 的 一 些 私有 数据 ,比如 
在 MPC83XX 处 理 器 中 ,该 指针 指向 QE 使 用 的 qe _ ic 结构 。 
(5) action 参数 指向 irqaction 结构 类 型 的 指针 。 该 参数 岳 述 中 断 处 理 函 数 , 设 备 驱 动 程序 
的 中 断 服务 例 程 挂 接 到 这 个 参数 。 
(6) status 参数 摘 述 中 上 断 的 状态 。 在 Linux PowerPC 中 ,中 断 可 以 有 以 下 几 种 状态 : 
9 [RQ _ INPROGRESS ,表示 该 中 断 正 在 处 理 中 。 
e IRQ_ DISABLED ,表示 该 中 断 被 禁止 。 
e IRQ_PENDING ,条 示 该 中 断 正 在 等 待 处 理 。 
9 IRQ_REPLAY 表示 中 断 被 重 发 .但 是 并 没有 得 到 响应 。 
9 IRQ_ AUTODETECT 表示 自动 获取 中 断 号 。 在 驱动 程序 中 ,可 以 使 用 probe _irq _on 
函数 自动 获得 软件 中 断 号 。 当 进行 中 断 号 自动 获取 时 ,系统 会 将 所 有 未 分 配 的 硬件 中 
断 打 开 , 再 使 相应 的 设备 产生 一 个 中 断 ,然后 通过 扫描 irq _desc 中 的 所 有 中 断 源 ,判断 
有 没有 发 生 过 中 断 , 从 而 获得 该 设备 的 软件 中 断 号 。 对 此 段 代 码 有 兴趣 的 读者 可 以 参 
考 . /kenel/irqg/autoprobe.c 文件 中 的 probe _irq _ on 函数 。 
9 IRQ_WAITING 表示 目 动 获 取 中 断 号 的 过 程 尚 未 完毕 。 


6.3.2 软 硬 件 中 断 号 的 映射 


在 设备 驱动 程序 中 ,用 户 可 以 使 用 request _ irg 函数 将 该 外 部 设备 的 中 断 服务 例 程 挂 接 到 

外 部 中 断 处 理 程序 中 。 外 部 中 上 断 处 理 程 序 , 即 Externellnput 函数 ,可 以 直接 处 理 硬 件 中 断 号 ， 

而 request _ irg 函数 使 用 软件 中 断 与 外 部 中 断 程序 挂 接 。 因 此 Linux PowerPC 必须 采取 某 种 
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机 制 建立 软 硬 件 中 断 的 映射 。 下 文 以 MPC8541 处 理 器 的 TSEC 设备 驱动 程序 为 例 ,说 明 Lin- 
ux PowerPC 如 何 建立 这 一 映射 关系 。 

TSEC 驱动 程序 调用 ucc _ geth_ probe 一 >irg _ of _ parse _and_map 函数 ,完成 软件 中 断 与 硬 
件 中 断 间 的 映射 关系 ,ucc _ geth _ probe 函数 的 源 代码 在 . /driver/net/ucc _ geth.c 文 件 中 

TSEC 设备 驱动 程序 为 实现 软 硬 件 之 间 的 映射 关系 笋 费 芋 心 。irqg_of_ parse_and_ map 
函数 最 初 在 gfar _ of _ init 函数 中 调用 ,建立 这 种 映射 关系 。 后 来 又 将 irq_ of _ parse _ and _ 
map 图 数 改 在 ucc _ geth _ probe 函数 中 调用 ,将 irq _ of _ parse _ and _ map 函数 放 在 此 处 使 用 
也 不 一 定 完 全 合适 ,因为 不 能 要 求 一 个 普通 的 设备 驱动 程序 员 对 Linux PowerPC 的 中 断 系统 
有 这 么 深入 的 认识 才能 编写 设备 驱动 程序 。 上 比较 好 的 办 法 是 让 设备 驱动 程序 员 仪 需要 了 解 软 
件 中 断 号 的 含义 ,就 能 够 编写 相应 的 设备 驱动 程序 的 中 断 服务 例 程 。 因 此 这 种 在 TSEC 设备 
驱动 程序 中 实现 软 硬 件 中 断 号 映射 的 方法 可 能 很 快 就 会 被 淘汰 

以 上 这 有 段 文字 主要 的 目的 是 提醒 读者 注意 ,设备 驱动 程序 中 使 用 request _ irg 函数 申请 中 
断 资源 之 前 .Linux PowerPC 需要 将 request _ irq 图 数 使 用 的 软件 号 与 硬件 号 之 间 建 立 映射 关 
系 。Linux PowerPC 使 用 irq_ of_ parse and map 函数 建立 这 种 软 硬 件 之 间 的 映射 关系 ,该 
半数 在 . /arch/powerpc/kernel/irg.c 文件 中 ,其 详细 描述 如 下 : 


unsigned int irqd _ of _ parse _ and_ map(struct device _node * dev,int index) 
| 


struct of _ irg oirg; 


if (of_irg_ map_ one(dev,index, 疏 oirg)) 
retumn NO [Ri 


return irg _create _ of _ mapping(oirg. controller, oirq. specifier, 
Oirg. size); 
| 
EXPORT SYMBOL GPL(irg_of_ parse_ and_ map): 


下 文 以 TSEC 驱动 程序 为 例 说 明 该 函数 的 使 用 。 

irg _ of _ parse _ and _ map 国 数 调用 of _irqg_ map _one 国 数 从 TSEC 中 断 控 制 器 的 dev _ 
node 中 获得 TSEC 使 用 的 中 断 信 息 并 填 人 orig 结构 中 。 在 TSEC 中 断 控制 器 的 dev node 
中 ,与 中 断 资 源 有 关 的 信息 在 . /arch/powerpc/bootdts/mpc8541cds. dts 文件 中 ,如 下 所 示 : 


etrherner(@®24000 | 
#address-cells = 1>; 
#size-cells = <0>; 
device type = “network ; 
model = "TSEC’; 
compatible = "gianfar ; 
reg = 24000 1000>; 
local-mac-address = [ 00 FE0 0C 00 73 00 ]; 
interrupts = <d2e2122>; 
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interrupt-parent = 40000>; 
phy-handle = <2452000>; 
唱 
在 该 dev_ node 中 ,“interrupts = <d2e2 12 2> "表示 当前 TSEC 中 断 控 制 器 一 共有 3 
个 中 断 ,其 硬件 中 断 号 分 别 为 0x0d、0x0e 和 0xl2, 与 TSEC 发 送 中 断 .接收 中 断 及 "在 发 送 / 接 
收 数据 出 现 错误 ”中断 相 对 应 ;"d”,“e" 和 “12" 后 的 参数 “2" 表 示 中 断 属性 。 中 断 属性 为 2 表示 
该 TSEC 中 断 源 是 高 电 平 有 效 。 
在 获得 oriq 结构 之 后 ,irq _ of _ parse _ and _ map 函数 调用 irq _ create _ of _mapping 函数 
完成 软 硬 件 中 断 号 的 映射 。 该 函数 的 源 代码 如 下 : 


unsigned int irq create_ of_ mapping(struct device_ node * controller, 
u32 +* intspec,unsigned int intsize) 
| 
struct irq _ host * host; 
irg _ hw _ number +t hwirg; 
unsigned int type = IRQ_ TYPE _ NONE: 
wnsipned int virgs 


/sx I{ host has no translation, then we assume interrupt line * / 
if (host- >ops- >xlate == NULL) 

hwirg = intspecL0]; 
else | 

if (host- > ops- > xlatel host, controller, intspec, intsize, 

&hwirg, 必 type) ) 
return NO _ IRQ:; 

| 


irq _ creat _ of _ mapping 函数 首先 从 oriq.intspec[0] 中 或 者 调用 xlate 函数 获得 相应 的 硬 
件 中 断 号 hwirq。 基 于 E500 内 核 的 Linux PowerPC ,其 hwirg 的 值 为 inrspec[0j。 


A"¥ Create mapping ¥* / 
virq = irg. create_ mapping(host, hwirg); 
i{f (virg =— NO _ IRQ) 

return virg; 


7x Set type if specified and different than the current one */ 

if (type 1!= IRQ_ TYPE _ NONE && 
type |!= (get_irg._ desc(virg)->status & IRQF TRIGGER_ MASK)) 
set _ irqg_ typelvirg, type)’; 
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return Wrg; 


| 7Yx# irq_ create_of_ mapping */ 


EXPORT SYMEBOL GPL(irg create_of_ mapping); 


以 上 这 段 程序 的 主体 是 irq _ create _ mapping 函数 ,该 函数 调用 irq _ find ”mapping 国 数 
建立 硬件 中 断 号 hwira 与 软件 中 断 号 的 之 间 的 映射 关系 。 如 果 irq _ create _ mapping 函数 执 
行 失败 ,该 函数 的 返回 值 为 NO _ IRQ, 表 示 软 硬件 中 断 号 映射 失败 ;如 果 该 函数 执行 成 功 将 继 
续 使 用 set _irq _ tvpe 函数 设置 中 断 类 型 ,最 后 将 irg _ create_ mapping 函数 获得 的 软件 中 断 号 
virg 返回 . 

irq _ create _ mapping 国 效 有 两 个 输 和 人 参数 ,一 个 是 host 参数 ,该 参数 描述 TSEC 控制 硕 
中 断 使 用 的 irq _ host 结构 ; 另 一 个 是 hwirq 参数 ,该 参数 存放 TSEC 控制 器 的 硬件 中 断 号 ,该 
便 件 中 断 号 从 dev_node 中 获得 ，irq _ create _mapping 图 数 的 详细 解释 如 下 : 


unsigned int trq _ create_ mapping(struct irq host * host, 
irq_ hw _ number _ t hwirg) 
| 
unsigned int virg, hint: 


if (host == NULL) 
host = irq_ default host; 
if (host == NULL) | 
printk(KERN WARNING "irg_ create_ mapping called for 
”NULL host, hwirg= %lIx \ n', hwirg); 
WARN ON(]1); 
retum NO _ IRQ:; 
| 
/# Check if mapping already exist,if it does, call 
# host->ops->map() to update the flags 
A 
virq = irg_ find_ mapping(host, hwirg); 
if (virg != IRQ_ NONE) | 
pr_ debug( irg:-> existing mapping on virq %dNn ,virg); 
return virg; 
| 
irq _ create _ mapping 图 数 首 先 对 host 参数 进行 检查 ,如果 host 参数 为 NULL, 则 使 用 全 
局 变量 irq _ default _host 作为 缺 省 的 host 参数 。 如 果 irq _ default .host 变量 仍然 为 空 , 则 返 
sl NO _ IRQ. 
随后 ,irq ”create _ mapping 函数 调用 irq _ find mapping 函数 ,检查 当前 硬件 中 断 号 
hwirg 是 否 已 经 建立 与 软件 中 断 号 的 映射 关系 。Linux PowerPC 定义 了 一 个 全 局 数组 irg 
map, 这 个 数组 也 被 称 为 软 鲁 件 中 断 映 射 表 , 该 表 与 反 向 中 断 映 射 表 相 对 应 ,在 该 数组 中 记载 
了 所 有 软 便 件 中 断 号 之 间 的 映射 关系 。 该 表 在 初始 化 时 建立 ,而 反 向 中 断 映 射 表 将 在 外 部 中 
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断 处 理 程序 中 逐步 建立 。 
irq _ find _ mapping 函数 的 主要 功能 是 遍历 irq_ map 数组 ,查找 当前 硬件 号 与 软件 中 断 号 
是 否 已 经 建立 了 映射 关系 ,如 果 已 经 建立 了 映射 关系 ,该 函数 将 获得 与 此 硬件 中 断 号 对 应 的 软 
件 中 断 号 ,之 后 该 图 数 返 回 。 如 果 irq_find_mapping 函数 没有 获得 软件 中 断 号 , 即 virq 的 值 
为 NO _ IRQ 时 ,将 继续 执行 以 下 程序 。 
这 里 提醒 读者 注意 ,在 本 段 函 数 中 ,使 用 “virg ! = IRQ _ NONE" 作 为 软件 中 断 号 virq 是 
否 有 效 的 条 件 有 些 不 有 要。 虽然 在 Linux PowerPC 中 IRQ_ NONE 和 NO _IRQ 的 值 相等 ,都 
为 0, 但 是 这 里 还 是 应 该 以 “virq ! = NO_IRQ" 作 为 判断 条 件 , 因 为 如 果 irq_find_mapping 函 
数 没有 获得 与 当前 硬件 中 断 号 对 应 的 软件 中 断 号 , 则 其 返回 值 为 NO ”IRQ 而 不 是 IRQ _ 
NONE,。 这 有 可 能 是 编写 这 段 程序 员 的 一 个 笔 误 。irq _ find _ mapping 函数 的 源 代码 较 易 阅 
读 ,为 节约 篇 幅 , 本 书 对 此 不 做 详细 分 析 , 但 是 建议 读者 务必 阅读 该 函数 的 源 代码 。 
A¥ Geta virtal interrupt number * / 
这 (host->revmap _ type == [RQ_ HOST_ MAP _ LEGACY) | 
/# Handle legacy */ 
virq = (unsigned int)hwirg; 
f (virg == 0 || virg >= NUM ISA_ INTERRUPTS) 
retum NO _ IRQ:; 
return virg; 
| else | 
A¥ Allocate a virtual interrupt number * / 
hint = hwirg % irq_ virg_ count; 
virg = irg_ alloe _ virt(host, | ,hint); 
if(virg == NO _IRQ) | 
pr_ debug( irg:-> virg allocation failed \ n’):; 
retum NO _ IRQ: 


| 


| 
pr_ debug( "irg:-> obtained virg %dNn ,virg); 
如 果 在 irq _find _mapping 函数 中 获得 了 软 硬 件 之 间 的 映射 关系 ,这 段 程序 将 不 会 被 执 
行 。 在 这 段 程序 中 ,首先 判断 当前 irq _ host 使 用 的 revmap _ type 参数 的 类 型 , 即 当 前 中 断 控 
制 妖 是 采用 哪 种 方式 映射 硬 软 件 中 断 号 ， 对 于 基于 E500 内 核 的 Linux PowerPC ,其 irq _ host 
的 revmap _ type 参数 为 IRQ_HOST MAP _ LINEAR ,因此 在 E500 内 核 中 将 执行 else 语句 . 
在 else 语句 中 这 段 程序 调用 irq _ alloc _ virt 函数 在 irq _ map 数组 中 分 配 一 个 末 使 用 的 
Entry ,最 后 在 irq _ alloc _virt 函数 返回 时 获得 与 该 硬件 中 断 号 对 应 的 软件 中 断 号 .如 条 在 irq _ 
map 数组 中 没有 找到 合适 的 Entry, 则 irq _ alloc _ virt 函数 返回 值 为 NO_IRQ。 
7/# Clear IRQ NOREQUEST flag * / 
get _ irg_ desc(virg)->status 及 = ~—IRQ_ NOREQUEST:; 


/x* mapit */ 


smp_ wmb( ); 
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ird _ mapl virg] .hwirg = hwirq; 
smp_ mb(); 
if (host- >ops- >map(host, virg, hwirq)) | 
pr _ debug( irg:-> mapping failed, freeing Nan ); 
irgq _ free _ virt(virg, 1); 
return NO _ IRQ:; 
| 
return virg; 
| 
EXPORT _SYMBOL GPL(irg_ create_ mapping); 


在 这 段 程序 中 ,首先 将 外 部 中 断 描述 符 表 irq _ desc 对 应 的 IRQ_ NOREQUEST 位 清除 ， 
表示 该 软件 中 断 号 可 以 被 使 用 . 之 后 将 当前 软件 中 断 号 与 硬件 中 断 号 之 前 的 映射 关系 存放 到 
全 局 数组 irq__map 中 。 

地 后 调用 host ->ops 一 >map 函数 进一步 设置 处 理 当 前 软件 中 断 导 的 程序 ,对 于 基于 
MPIC 控制 器 的 Linux PowerPC ,该 函数 等 效 于 mpic _ host _ map 函数 。mpic _ host _ map 函数 
是 Linux PowerPC 进行 软 硬 件 中 断 号 映射 重要 的 函数 ,其 代码 分 析 如 下 : 


static int mpic _ host_ maplstruct irg_ host * h,unsigned int virg, 
irq_ hw _ number +t hw) 
| 
struct mpic * mpic = bh->host_ data; 
struct irqg _ chip * chip; 


DBG( mpic: map virg %d,hwirg Ox% lx \ n ,virg, hw): 
if (hw == MPIC_ VEC_ SPURRIOUS) 

return -EINVAL; 
if (hw >= mpic->irq count) 

retrum -EINVAL; 


Z# Default chip */ 
chip = &mpic->he_ irg; 
mpic _ host _ map 函数 共有 3 个 参数 :h,virq 和 hw。 Ph 参数 指向 irq _ host 结构 ,该 参数 用 
来 取得 该 函数 使 用 的 mpic 数据 结构 的 指针 ;virg 参数 表示 软件 中 断 号 ,hw 参数 表示 硬件 中 断 
导 。 该 函数 正常 返回 时 ,返回 值 为 0 时。 返回 值 为 -EINVAL 时 ,表示 输入 参数 错误 . 
在 图 数 的 开始 部 分 ,首先 从 irq _ host 结构 中 获得 mpic 的 信息 ,然后 检查 输入 参数 hw ,最 
后 从 mpic 结构 中 获得 he _ irg 参数 ,hc __irq 参数 中 保存 了 一 些 操作 MPIC 中 斯 控制 器 内 寄存 
三 的 一 组 国 数 . 


DBG( mpic:mapping to irg chip @ %p \ n ,chip); 


set _irq _chip data(virg,mpic); 
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set_irq_chip_ and_ handler(virg,chip,handle_ fasteoi _ irqg); 


PA a A i hil 
set_irg_ type(virg,IRQ_ TYPE_ NONE): 


return 0; 


| /A/¥# End mpic_host_map */ 


这 上 段 程 夺 自 和 完 使 用 set _ irqg _ chip _ data 函数 将 mpic 结构 保存 在 相应 中 断 描述 符 irq _ de- 
sc 的 chip _ data 参数 中 ,以 便 以 后 使 用 ,之 后 调用 set _ irg _ chip_ and handler 图 数 将 相应 中 
断 描述 符 irq _ desc 的 handle 参数 设置 为 handle _ fasteoi _irq 函数 ， 
中 断 描述 符 irq _ desc 的 handle 参数 设置 完毕 后 , 当 外 部 中 断 处 理 程序 处 理 这 个 中 断 源 
时 ,将 首先 执行 handle fasteoi _ irg 函数 。set _ irq _ chip _ and handler 函数 在 . /kernel/irq/ 
chip.c 文件 中 ,该 函数 的 源 代码 如 下 : 
void 
set _irq_chip and _ handler( unsigned int irq,struct irq _chip * chip， 
irq _ flow _ handler + handle) 
| 
set_ irqg _ chip(irg, chip); 
_ set_ iry. handler(irg, handle,0, NULL): 


set _ irq _ chip 图 数 是 设备 驱动 程序 的 中 断 服 务 例 程 与 MPIC 中 断 控 制 器 进行 挂 接 的 要 
点 ，aset _irq__chip 销 数 将 终 剖 描述 符 irq _ desc 中 相应 Entry 的 chip 参数 赋值 为 mpic >hc 
irq, 即 为 mpic _irq _ chip。 之 后 ,在 设备 驱动 中 断 服务 例 程 可 以 使 用 mpic _ird _chip 结构 中 提 
供 的 操作 函数 ,访问 MPIC 中 断 控制 器 中 的 寄存 器 。 set _irq _handler 函数 将 中 断 描述 符 
irq _ desc 相应 Entry 的 handle _ irq 赋值 为 mpic 一 光 >he _ irg, 即 为 handle_ fasteoi _ irg. 

Linux PowerPC 的 中 断 子 系统 除了 需要 为 TSEC 控制 器 建立 软 硬 件 中 断 号 英 射 之 外 ,还 
亩 夺 对 TSEC 控制 郑 的 使 用 的 软件 中 断 号 进行 一 些 必要 的 初始 化 ,之 后 设备 驱动 程序 才能 够 
使 用 request _ irg 函数 将 TSEC 中 断 服务 例 程 挂 接 到 外 部 中 断 处 理 了 图 数 中 ， 

Linux PowerPC 使 用 platform bus 设备 驱动 统一 管理 MPC8541 处 理 器 中 的 TSEC 控制 
器 ,FCC 控制 器 .DUART 等 设备 。 

这 个 platform bus 驱动 程序 的 代码 在 . /arch/powerpc/sysdev/fsl _ soc.c 文件 中 。platform 
bus 设备 驱动 程序 是 Linux 系统 总 线 类 驱动 程序 的 一 种 ,只 是 这 类 设备 驱动 程序 没有 实际 的 物 
理 总 线 。 有 关 Linux 总 线 驱 动 程序 的 详细 描述 请 参考 Jonathan, Alessandro 和 Greg 所 著 的 
Linux Device Drivers 第 3 版 ， 

Linux PowerPC 首先 使 用 gfar of _ init 函数 .初始 化 TSEC 控制 器 ,在 gfar _ of _ init 函 
数 中 ,. 痛 完 由 OP API 类 函数 获得 在 Open Firmware 中 存放 的 TSEC 控制 器 的 描述 信息 ,之 后 
由 platform _ device _ register _ simple 函数 注册 此 platform bus 驱动 程序 ,然后 使 用 platform 
device _ add _ data 图 数 将 所 有 TSEC 控制 器 的 platform _ device 信息 添加 到 TSEC 控制 器 对 应 
的 platform bus 设备 驱动 程序 中 ,这 个 设备 驱动 程序 由 do _ initcalls 函数 在 Linux 系统 引导 时 
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司 动 ,有 关 do__initcalls 函数 的 详细 介绍 见 8.3.2 节 。 

gfar _ of _init 国 数 执行 完毕 后 ,TSEC 控制 器 使 用 的 platform device 结构 被 设置 完毕 ,此 
后 TSEC 设备 驱动 程序 可 以 使 用 Platform get _irq _byname 函数 从 platform bus 驱动 程序 中 
获得 TSEC 设备 驱动 程序 使 用 的 软件 中 断 号 。 


6.3.3 request _irq 因数 


在 Linux 系统 中 ,设备 驱动 程序 使 用 request _irq 函数 ,将 设备 的 中 断 服务 例 程 与 外 部 中 
断 服务 函数 挂 接 ,并 使 用 free _ irgq 函数 来 释放 这 种 挂 接 关 系 。request _irq 和 free _ irq 函数 的 
源 代 码 在 . /kernel/irq/manage.c 文件 。 

1. request _irq 函数 的 入 口 参数 


int request _ irg(unsigned int irg,irg_ handler _ t handler, 
unsigned long irgflags, const char * devname,void * dev id) 
| 


request _ irq 晴 数 共有 5 个 参数 ,分 别 为 irq, handler,irqflags, devname 和 dev_ id。 requesl 
_irq 图 数 返 回 0 时 ,表示 外 部 设备 的 中 断 处 理 程 序 注册 成 功 ,返回 -INVAL 表示 当前 软件 中 断 
写 irq 大 于 NR _ IRQS(NR _ IRQS 为 Linux PowerPC 软件 中 断 号 的 最 大 值 ) 或 handler 等 于 
空 , 返 回 -EBUSY 表示 中 断 已 经 被 占用 且 不 能 共享 。 

(1) handler 参数 。handler 参数 保存 设备 驱动 程序 使 用 的 中 断 服 务 例 程 。 当 产生 外 部 中 
扬 时 ,外 部 中 断 处 理 程 序 调用 此 函数 来 完成 对 此 设备 的 中 断 处 理 。 

中 断 服 务 例 程 一 共有 两 个 参数 irq 和 dev _ id。irg 参数 存放 软件 中 断 导 ,dev_ id 参数 为 中 
断 服务 例 程 使 用 的 设备 id 号 。dev_id 的 主要 作用 是 帮助 中 断 处 理 程序 获得 指向 该 设备 驱动 
程序 的 描述 符 指 针 , 从 而 获得 设备 驱动 程序 需要 的 priv 数据 . 

(2) irqflags 参数 。 该 参数 的 值 为 IRQF _DISABLED 或 者 IRQF _SHARED， 一 些 版 本 
较 老 的 设备 驱动 程序 使 用 SA _SHIRQ 与 SA _INTERRUPT。 在 Linux 2.6 内 核 中 ,这 两 个 
值 已 经 被 IRQF _ DISABLED 与 [IRQF SHARED 替换 . 

当 irqflags 参数 为 IRQF _ DISABLED 时 , 当前 中 断 服务 例 程 独占 软件 中 断 号 ,其 他 中 断 
服务 例 程 不 能 使 用 这 个 软件 中 断 号 ,而且 在 此 中 断 服务 例 程 在 运行 时 将 屏蔽 所 有 其 他 的 外 部 
中 断 。 

当 irqflags 参数 为 IRQF _SHARED 时 ,当前 中 断 服务 例 程 可 以 与 其 他 中 断 服务 例 程 共享 
同一 个 软件 中 断 号 ,而且 在 此 中 断 服务 例 程 运行 时 不 屏蔽 其 他 外 部 中 断 。 在 Linux 系统 中 ,如 
采 某 个 软件 中 断 号 允许 共享 ,那么 所 有 使 用 这 个 软件 中 断 号 的 设备 驱动 程序 在 调用 request 
irq 图 妆 都 再 要 将 其 irqflags 参数 设置 为 IRQF _SHARED.。 

(3) devname 和 dev _ id 参数 表示 设备 名 和 设备 id 号 。 

(4) irg 参数 用 来 存放 设备 驱动 程序 使 用 软件 中 断 号 。 在 设备 驱动 程序 中 ,使 用 request _ 
irq 明 数 时 ,需要 使 用 软件 中 断 号 将 中 断 服务 例 程 挂 接 到 外 部 中 断 处 理 函 数 ExternalInput 中 。 
在 Linux PowerPC 中 ,外 部 中 断 处 理 程序 ExternelInput 函数 能 够 从 中 断 控制 器 PIC 直接 获得 
的 中 断 号 为 硬件 中 断 号 ,但 是 在 设备 驱动 程序 中 需要 使 用 软件 中 断 号 ,将 中 断 服务 例 程 与 外 部 
中 断 处 理 程 序 挂 接 在 一 起 。 
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这 是 因为 在 Linux 系统 中 ,request _irq 国 数 不 仅 可 以 在 Linux PowerPC 中 使 用 ,而 且 可 以 
在 Linux ARM、Linux MIPS 和 Linux Pentium 中 使 用 。 对 于 不 同体 系 结构 的 处 理 器 ,硬件 中 
岂 所 的 定义 相差 其 远 ,采用 软 便 件 中 断 号 分 离 的 方法 ,有 助 于 提高 设备 驱动 程序 的 可 移植 性 ， 
也 使 得 不 同体 系 结构 的 处 理 器 都 可 以 使 用 request _ irg 函数 将 中 断 服务 例 程 挂 接 到 相应 的 外 
部 中 断 处 理 程序 中 ，。 

Linux PowerPC 支持 Open Firmware 结构 。 在 MPC8541CDS 处 理 右 系统 中 ,一 些 人 硬件 中 
断 号 的 描述 被 放 人 入. /arch/powerpc/boot/dts/mpc8541cds.dts 文件 中 。 如 在 mpc8541cds. dts 
文件 中 ,EC 总 线 使 用 的 硬件 中 断 号 使 用 “interrupts = 过 1b 2>”,TSECI1 控制 器 使 用 的 硬件 
中 断 号 使 用 *interrupts = <d2 e2 122>", 即 TC 总 线 使 用 的 硬件 中 断 号 为 0xlb= 27, 而 
TSEC1 控制 器 使 用 的 硬件 中 断 号 为 0xd=13,0xe=14 和 0xl12= 18。 

MPC85XX 处 理 器 支持 外 部 中 断 源 。MPC85XX 处 理 器 提供 了 12 个 外 部 中 断 引 脚 ,用 户 
可 以 使 用 这 些 外 部 引 脚 ,进行 外 部 中 断 扩 展 。 MPC85SXX 处 理 第 的 外 部 中 断 号 的 定义 如 下 
所 示 : 


¥* The 12 external interrupt lines * / 

#define MPC8Sxx IRQ_EXTO (48 + MPC85xx OPENPIC IRQ_ OFFSET) 
#define MPC85xx_ IRQ_EXTI (49 + MPC8Sxx OPENPIC IRQ_ OFFSET) 
#define MPC85xx_ [IRQ_EXT2 (50 + MPC85xx OPENPIC_ IRQ_ OFFSET) 
#define MPC8S5xx _ IRQ_EXT3 (51 + MPC85xx_ OPENPIC_ IRQ._ OFFSET) 
#define MPC85xx _ IRQ EXT4 (52 + MPC85xx_ OPENPIC IRQ_ OFFSET) 
#8define MPC85xx _IRQ EXTS (53 + MPC85xx OPENPIC IRQ_ OFFSET) 
#define MPC85xx_IRQ_EXT6 (54 + MPC85xx OPENPIC IRQ_ OFFSET) 
#define MPC85xx_ IRQ_EXT7 (55 + MPC85xx_ OPENPIC_ IRQ_ OFFSET) 
#define MPC8S5xx_IRQ EXT8 (56 + MPC85xx QPENPIC_ IRQ_ OFFSET) 
tdefine MPC85xx_ TIRQ_EXT9 (57 + MPC85xx OPENPIC_ IRQ_ OFFSET) 
#define MPC85xx_ IRQ_EXTI0 (58 + MPC85xx_ OPENPIC_ IRQ_ OFFSET) 
#define MPC85xx_ IRQ_ EXTIl (59 + MPC85xx OPENPIC_ IRQ_ OFFSET 


程序 员 在 编写 自 定义 设备 的 外 部 中 断 服务 例 程 时 , 窒 要 通过 irq _ create _ mapping 图 数 将 
这 些 硬件 中 断 号 转化 为 软件 中 断 号 后 ,才能 使 用 request _ irg 时 数 ， 

本 书 建议 ,需要 使 用 自 定义 外 设 的 程序 员 , 将 外 设 的 描述 信息 放 入 dts 文件 中 ,然后 在 
platform bus 驱动 程序 中 调用 irq of parse and map 国 数 , 完 成 软 硬 件 中 断 导 的 映射 ,而 不 
是 在 设备 驱动 程序 中 直接 调用 irq _create _mapping 函数 ,虽然 采用 这 种 方法 最 为 简单 。 

2. request _irq 函数 的 代码 分 析 

request _ irg 图 数 的 实现 较为 简单 ,其 源 代 码 在 .水 ernel/irqg/manage.c 文件 中 : 


int request _irq(unsigened int irq,irg handler + handler, 
unsigned long irgflags, const char * devname,void #dev id) 
| 
struct trqaction * action; 
int retval; 
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if ((irgllags & IRQF _SHARED) && | dev_id) 
retrurn -EINVAL:; 

if (irg >= NR _ IRQS) 
return -EINVAL:; 

i (irg _ desc| irg | .status & IRQ_ NOREQUEST) 
retum -EINVAL: 

if (1 handler) 
retum -EINVAL:; 


这 上段 程序 首先 对 进行 request _irg 函数 的 人 口 参数 进行 检查 ， 
1) 对 irgflags 参数 进行 检查 。 如 果 [RQF SHARED 位 有 效 , 则 表示 该 外 部 设备 与 其 他 设 
共计 一 个 中 断 资源 。 在 Linux 系统 中 ,一 个 软件 中 断 号 可 能 被 多 个 中 断 服务 例 程 共享 。 此 

时 在 request _irq 函数 中 ,必须 使 用 设备 驱动 程序 的 dev _ id 参数 ,进一步 区 分 是 哪个 设备 正在 
使 用 这 个 软件 中 断 号 。 因 此 当 irqflags 参数 中 的 [RQF ”SHARED 位 有 效 时 ,dev_ id 不 能 为 
NULL ,否则 dev_ id 可 以 为 NULL.- 

2) 检查 软件 中 断 号 ,是 否 大 于 其 可 能 的 最 大 值 NR_ IRQS。 检 查 在 全 局 变量 irq _ desc 中 
可 此 中 断 号 对 应 Entry 的 状态 是 否 有 效 ， 检查 中 断 服务 例 程 是 否 为 空 。 


action = kmalloc(sizeof(struct irgaction), GFP_ ATOMIC):; 
if (1 action) 
return -ENOMEMN; 


action- > handler = handler; 
action- >flags = irgflags; 
cpus _ clear(action- > mask): 
action- >name = devname; 
action- >next 三 NULL: 
action- >dev_ id = dev _ id; 


select _ smp _ affinity(irg); 


retval = setup_ irg(irg,action); 
if (retrval) 


kfree( action): 


return retval; 
| /# End request_irqg */ 
这 段 源 代码 的 执行 流程 如 下 : 
1) 首先 为 action 变量 分 配 物 理 空 间 ,action 为 irqaction 类 型 的 变量 。 
2) 初始 化 action 变量 ,将 中 断 服 务 例 程 的 flags 和 handle 参数 加 人 到 action 变量 中 。 
3) 设置 该 中 断 服务 例 程 的 亲 和 性 属性 , 即 由 处 理 器 的 哪个 CPU 运行 该 中 断 服务 例 程 。 
4) 调用 setup _ irg 函数 将 action 变量 中 包含 的 信息 加 入 到 irq _ desc 数组 中 
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3. setup _ irg 函数 

setup _irq 昂 数 将 中 断 服务 例 程 加 入 到 中 断 描述 符 表 irg _ desc 中 ,完成 设备 驱动 程序 与 
外 部 中 断 处 理 系 统 的 挂 接 

setup _irdq 函数 一 共有 两 个 输入 参数 。 

(1) irq 参数 ， 该 参数 用 来 存放 设备 驱动 程序 使 用 的 软件 中 断 号 。 

(2) new 用 来 存放 与 ira 参数 对 应 的 irqaction 结构 ,该 结构 在 request _ irg 图 数 中 赋值 。 

setup _irq 函数 将 存放 在 参数 new 中 的 irqaction 结构 合理 地 加 人 到 irq _ desc 外 部 中 断 摘 
述 符 表 中 ,其 源 代码 如 下 : 


int setup _ irq(unsigned int irg, struct irdaction * new) 
| 
struct irg_ desc * desc = irg_ desc + irg; 
struct irqaction * old, * #9p; 
const char * old name = NULL.; 
unsigned long flags; 
int shared = 0; 


if (irg = NR _ IRQS) 
return -EINVAL; 


if (desc- >chip == &no_ irg_ chip) 
retum -ENOSYS; 


if (new->flags & IRQF SAMPLE RANDOM) 1 
rand _ initialize _ irg(irg); 
spin lock _ irgsave( &desc- > lock. flags); 
Pp 三 点 desc- >action; 
old = *p; 
if (old) | 
if (! ((old->flags & new->flags) & IRQF_ SHARED) | 
((old- >flags “ new->flags) & IRQF_ TRIGGER_ MASK)) | 
old name = old- > name:; 
goto mismatch:; 
| 


do | 
p = 上 &old- > next; 
od = *p; 
| while (old) ; 
shared = 1; 
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这 段 代码 的 执行 说 明 如 下 . 

1) 首先 根据 软件 中 断 号 irq 查找 外 部 中 断 描 述 符 表 irqg _ desc, 得 到 相应 的 中 断 描述 符 dese。 

2) 接着 进行 一 些 必要 的 参数 检查 

3) 对 临界 数据 desc 加 锁 , 并 禁止 中 断 

4) 对 desc- > action 进行 检查 。 如 果 desc- > action 的 值 为 NULL ,表示 没有 其 他 设备 驱动 
程序 使 用 过 request _irq 函数 对 此 软件 中 断 号 进行 注册 。 如 果 其 值 不 为 空 则 表示 曾经 有 设备 
驱动 程序 注册 过 此 中 断 号 。 

5) 之 后 ,这 段 程序 进一步 检查 当前 需要 注册 的 中 断 处 理 程序 和 desc- > action 中 的 中 断 处 
理 程序 是 否 可 以 共享 ,并 且 这 两 个 中 断 处 理 程序 是 否 采 用 了 相同 的 触发 方式 。 如 果 这 两 个 条 
件 虱 为 真 , 则 将 新 的 中 断 处 理 程序 加 入 到 老 的 中 断 处 理 程序 之 后 ,并 将 shared 变量 赋值 为 1， 
表示 当前 至 少 有 两 个 设备 驱动 程序 共享 一 个 软件 中 断 号 。 如 果 此 时 新 老 中 断 处 理 程序 出 现 了 
共享 错误 ,将 会 调转 到 mismatch 标签 处 执行 


ft 二 MEW 
if (1 shared) | 
irqg_ chip_ set_ defaults( desc- > chip); 


Y# Setup the type (level,edge polarity) if configured: * / 
i (new->flags & IRQF TRIGGER MASK) | 
if (desc- 之 chip 芒 故 desc->>chip->>set _ type) 
desc- > chip- >set _ type(irg, 
new- > flags & IRQF_ TRIGGER MASK); 
else 
printk(KERN WARNING "No IRQF TRIGGER set_ type” 
“fonction for IRQ %d (%s) \n ,irg, 
desc- >chip ? desc- >chip- > name : 
Unknown ); 
| else 
compat _ irg_ chip_ set_ default handler(desc); 


desc- >status 发 = 一 (IRQ_ AUTODETECT | IRQ_ WAITING | 
IRQ_ INPROGRESS); 


if{ (! (desc->status & IRQ_ NOAUTOEN)) | 
desc- > depth = 0; 
desc- 二 status 入 = 一 IRQ_ DISABLED; 
i{ (desc- > chip- > startup) 
desc- > chip- > startup(irg); 
else 
desc- > chip: > enable(irg); 
| else 
/¥* Undo nested disables: * / 
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desc- 之 depth = 1; 
1 7Y# Endif (! shared) */ 


@ 如 果 shared 变量 不 为 1. 则 使 用 irq _chip _set _ defaults 函数 对 desc 一 >chip 中 的 操作 函 
数 进行 初 娘 化 。irq _ chip _ set _ defaults 函数 在 . /kernel/irq/chip.c 文件 中 ,该 函数 将 
desc 一 之 chip 中 的 enable .disable srarrup .shurdown 操作 函数 ,name 参数 和 end 参数 赋 
值 ， 在 Linux PowerPC 中 ,desc 一 >chip 的 enable 和 disable 函数 为 mpic unmask _ irg 
和 mpic mask _irg 函数 

9 随后 根据 flags 参数 设置 与 当前 软件 中 断 号 对 应 中 断 源 的 触发 条 件 。 

8 将 desc- > status 的 IRQ _ AUTODETECT IRQ_ WAITING JIRQ INPROGRESS 位 
清除 

8 如 果 desc- >status 参数 允许 使 能 中 断 源 , 即 IRQ_NOAUTOEN 位 为 0, 则 调用 startup 
国 数 或 者 调用 enable 函数 使 能 外 部 中 断 。MPIC 中 断 处 理 程 序 的 startup 函数 和 enable 
国 数 将 调用 mpic _unmask _irq 阔 数 将 IIVPR0 一 31 或 者 EIVPR0 一 11 中 的 某 个 寄存 
秦 的 MSK 位 清 零 ,使 能 相应 中 断 源 。 


/# Reset broken irg detection when installing new handler # 7 
desc- >irq_ count = (0; 

desc- >irgs _ nhandled = 0; 

spin_ unlock _ irqrestore( &desc- > lock, flags) ; 


new- >irg = irqg; 
register _ irg _ proc(irg); 

new- >dir = NULL; 

register _ handler _ proc(irg, new):; 


return |; 


mismatch : 
让 (1 (new->flags & IRQF PROBE SHARED)) | 
printk(KERN _ ERR “IRQ handler type mismatch for [RQ %dNan ,irg); 
if (old name) 
printk( KERN _ ERR “cirrent handler:%sNnm ,old_ name); 
dump _ stack( ); 
| 
spin _ unlock _ irgrestore( 及 desc- > lock, flags) ; 
rettur -EBUSY; 
| A/¥ End setup_ irg */ 


9 最 后 ,setup _ irq 图 数 打 开 自 旋 锁 desc- >> lock。 
e 将 中 断 信 息 注 册 到 proc 文件 系统 中 ,此 后 Linux 系统 的 使 用 者 可 以 使 用 “cat /procvin- 
terrupts” 命 令 显 示 Linux 内 核 中 所 有 中 断 信息 。 
如 果 setup _irq 函数 执行 失败 ,将 跳 转 到 mismatch 标签 处 ,并 返回 -EBUSY。 如 果 此 时 在 
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执行 setup _irq 函数 时 ,出 现 了 共享 错误 , 则 调用 dump _ stack 函数 ,将 当前 进程 使 用 的 核心 堆 
栈 打 印 出 来 。 


6.4 Linux PowerPC 对 外 部 中 断 的 处 理 


对 于 PowerPC E500 内 核 ,Linux PowerPC 对 外 部 中 断 的 处 理 共 分 为 两 个 步 又 。 

(1) 将 E500 内 核 中 的 IVORs 寄存 器 与 IVPR 寄存 器 赋值 ,使 得 对 应 的 中 断 或 者 异常 由 
指定 的 函数 进行 处 理 。 

(2) 当 外 部 中 断 事 件 来 临时 ,由 指定 的 外 部 中 断 处 理 图 数 处 理 相 应 的 中 断 事件 。 

对 于 ES00 内核 ,Linux PowerPC 在 引导 初期 将 中 断 问 量 初始 化 。Linux PowerPC 使 用 宏 
定义 SET _ IVOR 初始 化 PowerPC E500 内 核 中 的 IVORx 寄存 器 。 该 宏 定义 的 源 代码 在 
. /arch/powerpc/kernel/head _ booke.h 文件 中 。 在 本 章 的 起 始 部 分 讲述 了 如 何 使 用 宕 定义 
SET_IVOR 初始 化 IVORx 寄存 器 和 IVPR 寄存 器 ,本 节 主 要 介绍 Linux PowerPC 的 外 部 中 
扬 处 理 晒 数 , 即 ExternalInput 国 数 。 

发 生 外 部 中 断 时 , Linux PowerPC 将 调用 ExternalInput 图 数 处 理 外 部 中 断 。 为 此 Linux 
PowerPC 再 要 使 用 宏 EXCEPTION 初始 化 外 部 中 断 处 理 函 数 ExternalIuput。 


EXCEPTION(Ox0500, ExternalInput, do_ IRQ,EXC_ XFER _ LITE) 


宏 EXCEPTION 的 源 代码 在 . /arch/powerpc/kernel/head _ booke.h 文件 中 ,将 该 宏 展 开 
加 以 得 到 以 下 程序 : 


.align 53; 
Externallnput: ; 
NORMAL _ EXCEPTION _ PROLOG:; 
add r3,r1,STACK FRAME OVERHEAD:; 
EXC_ XFER _ LITE (0x0500,do_ IRQ); 


@ Linux PowerPC 要 求 ExternalInput 函数 的 程序 地 址 需要 至 少 4 字 节 对 界 ,这 是 因为 


IVOR 寄存 器 的 低 4 位 恒 为 0。 
@ 之 后 这 段 程序 调用 宏 NORMAL EXCEPTION PROLOG 为 进入 中 断 程序 做 必要 的 
准备 工作 。 


e@ 更 改 通用 寄存 器 GPR3 的 值 ,最 后 调用 宏 EXC XFER _ LITE 进行 中 断 处 理 。 此 时 寄 
存 器 GPR3 的 值 将 指向 中 断 堆栈 中 的 pt _ regs 参数 .该 参数 将 作为 do _ IRQ 函数 的 输 
人 参数 。 


6.4.1 宏 NORMAL EXCEPTION PROLOG 


在 Linux PowerPC 中 ,大 多 数 异 常 处 理 程序 使 用 宏 NORMAL EXCEPTION _ PROLOG 
进行 初始 化 。 该 宏 的 源 代码 在 . /arch/powerpc/kernel/head _ booke.h 文件 中 。 
宏 NORMAL _ EXCEPTION _ PROLOG 主要 的 作用 有 以 下 两 个 : 
(1) 确定 外 部 中 断 处 理 程 序 使 用 的 堆栈 空间 。 
(2) 将 中 断 处 理 程 序 中 使 用 的 通用 寄存 器 和 状态 寄存 器 压 人 中 断 堆 栈 ,为 do _IRQ 函数 
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提供 运行 空间 。 
1. 确定 中 断 服务 程序 使 用 的 堆栈 空间 
对 于 基于 E500 内 核 的 PowerPC 处 理 器 ,Linux PowerPC 并 没有 使 用 独立 的 中 断 堆 栈 结 构 ,而 
是 使 用 进程 的 核心 堆栈 作为 中 断 堆栈 。Linux PowerPC 确定 中 断 处 理 程序 堆栈 的 代码 如 下 : 
# define NORMAL EXCEPTION PROLOG \ 
mtspr SPRN _ SPRGO ,rl10; 
mtspr SPRN _SPRGl .rll; 
mtspr SPRN SPRG4W ,rl; 


mfcr ri0; 


这 段 程序 首先 将 寄存 器 r10、rll 和 rl 保存 在 SPRG0 ,SPRGL 和 SPRG4W 中 。 在 下 面 的 
程序 中 ,需要 使 用 rl0,rll 作为 缓冲 ,以 确定 中 断 程 序 使 用 的 堆栈 。 在 确定 中 断 处 理 程序 使 用 
的 堆栈 之 前 ,只 能 使 用 PowerPC 处 理 器 提供 的 SPR 寄存 右 保 存 通 用 寄存 器 GPR-。 在 Linux 
系统 中 .SPR 寄存 船 被 用 来 保存 中 其 或 者 异常 处 理 程序 的 通用 寄存 器, 其 他 的 内 核 程序 不 得 
使 用 这 些 寄存 器 - 之 后 这 段 程序 使 用 r10 保存 E500 内 核 的 CR 寄存 器 。 

mfspr rl1 ,SPRN SRRI1; 
andi. rll,rll,MSR _PR; 
beq 1{; 
mfspr rl ,SPRN _ SPRG3; 
lwz r1, THREAD _ INFO-THREAD(+! ); 
addi rl ,rl, THREAD SIZE:; 
l:subi rl,rl INT_FRAME _ SIZE:; " 


这 段 程序 从 SRR1 寄存 器 中 获得 进入 中 断 处 理 程序 之 前 的 MSR 寄存 器 ,注意 在 进入 中 断 
处 理 程序 之 后 ,MSR 寄存 器 的 有 些 位 被 自动 清 零 。 因 此 如 果 程 序 员 需 要 操作 "进入 中 断 处 理 
程序 之 前 的 MSR 寄存 器 时 ,需要 将 MSR 寄存 器 从 SRR1 寄存 只 中 恢复 。 

之 后 这 段 程序 对 “进入 中 断 处 理 程 序 之 前 ”的 MSR 寄存 器 的 PR 位 进行 判断 。 如 果 PR 
位 为 上 表示 进程 是 在 Linux 用 户 空 间 中 运行 被 中 断 的 ,如 果 PR 位 0 表示 进程 是 在 Linux 核心 
空间 内 运行 被 中 断 的 。 

根据 PR 位 的 不 同 , 中 断 处 理 程序 需要 对 rl 寄存 器 作 不 同 的 处 理 。E5S00 内 核 使 用 寄存 器 
rl 作为 堆栈 指针 寄存 器 。 在 Linux PowerPC 中 ,中 断 处 理 程序 不 能 直接 使 用 用 户 空 间 的 堆栈 
指针 寄存 需 , 因 为 在 Linux 系统 中 ,用 户 空 间 的 虚拟 内 存 不 一 定 在 实际 的 物理 内 存 中 。 因 此 在 
Linux PowerPC 中 ,外 部 中 断 处 理 程 序 需 要 使 用 用 户 进 程 的 核心 栈 段 作为 中 断 处 理 程 序 的 

当 PR 位 为 1 时 ,中 断 处 理 程序 将 堆栈 指针 寄存 器 zl 指向 用 户 进程 的 核心 堆栈 的 顶部 , 因 
为 此 时 用 户 没有 在 Linux 系统 的 核心 态 中 运行 ,在 核心 堆栈 中 并 没有 保存 任何 有 效 数据 
Linux PowerPC 的 中 断 处 理 程序 采用 以 下 算法 获得 用 户 进程 的 核心 栈 段 的 顶部 : 

r = mem(THREAD INFO-THREAD + SPRG3) + THREAD SIZE 
其 中 寄存 器 SPRG3 存放 的 是 被 中 断 进程 的 thread 参数 的 地 址 ,因此 SPRG3-THREAD 所 


得 的 值 为 进程 描述 符 task _ struct 的 地 址 。 此 地 址 在 加 上 THREAD _ INFO 可 以 得 到 当前 进 
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程 换 述 符 thread _ info 参数 的 地 址 。 最 后 使 用 这 个 地 址 中 存放 的 数据 加 上 THREAD _ SIZE 
几 可 以 得 到 当前 进程 核心 栈 段 的 栈 顶 地 址 。 在 Linux PowerPC 中 ,thread info 参数 与 核心 堆 
栈 共 至 一 个 8KB 大 小 的 空间 ,如 图 5-3 所 示 。 

对 于 E500 内核, 这 段 程序 可 以 直接 从 12 寄存 器 中 .直接 获得 进程 描述 符 的 地 址 而 不 需要 
使 用 "SPRG3-THREAD”。 但 是 对 于 对 于 其 他 体系 的 PowerPC 处 理 器 ,如 基于 603E 内 核 ,只 
能 使 用 SPRG3 首先 获得 thread 参数 的 物理 地 址 ,之 后 再 找到 进程 描述 符 的 物理 地 址 ,详情 见 
SS 节 。 

当 PR 位 为 0 时 ,中 断 处 理 程序 可 以 直接 使 用 rl 的 值 作为 中 断 服务 程序 的 堆栈 指针 , 即 直 
接 使 用 当前 进程 的 核心 堆栈 空间 . 

最 后 ,这 段 程序 使 用 “subi rl ,rl,INT_ FRAME _SIZE "指令 为 中 断 处 理 程序 开辟 堆栈 空 
间 , 其 大 小 为 INT FRAME SIZE = 16+sizeof( struct pt _ regs) 

Linux 2.6.20 中 文 持 独立 的 中 断 堆 栈 , 即 中 断 堆栈 可 以 不 使 用 进程 的 核心 堆栈 。 这 样 做 
的 好 处 是 中 断 处 理 程序 溢出 时 不 对 核心 堆栈 产生 影响。 这 一 技术 在 许多 髋 入 式 操作 系统 中 已 
经 广泛 采用 。 但 在 Linux 系统 中 ,并非 所 有 的 体系 结构 都 支持 中 断 堆 栈 ,Linux PowerPC 支持 
独立 的 中 汤 堆 栈 , 但 是 Linux PowerPC 并 没有 在 2.6.20 版 本 中 支持 32 位 PowerPC 处 理 器 提 
供 中 断 堆栈 。 对 中 断 堆栈 有 兴趣 的 读者 可 以 阅读 . /arch/powerpc/kernel/setup 64.c 中 的 
irqstack _ early _ init 图 数 了 解 有 关中 断 核 心 堆栈 的 初始 化 ,本 书 对 此 不 进行 讨论 。 

2. 保存 通用 寄存 器 和 状态 寄存 器 


mr rll ,rl:; 

stw rl0, CCR(rl1); 

stw rl12,GPR12(rl1); 

stw 芍 ,GPR9(rl11); 

mfspr rl0,SPRN SPRGO:; 
stw rl0,GPRIO(r11); 
mfspr rl12,SPRN SPRGI; 
stw rl2,GPRI11(r11):; 
mflr r10; 

stw rl0, LINK(r1]); 


以 上 这 段 程序 的 执行 流程 如 下 ， 

9 将 寄存 右 rl 的 值 赋 子 寄存 器 rll .此 时 寄存 器 rll 将 指向 当前 堆栈 指针 。 
@ 将 寄存 器 r10 寄存 器 保留 的 CR 寄存 器 存放 人 堆栈 的 相应 位 置 ， 

9 将 寄存 器 rl2,r9 存放 入 堆栈 的 相应 位 置 . 

9 将 保存 在 SPRG0 中 的 寄存 器 r10 存放 人 堆栈 的 相应 位 置 . 

@ 将 保存 在 SPRG1 中 的 寄存 器 rll 存放 人 堆栈 的 相应 位 置 。 

@ 将 寄存 器 LR 存放 人 堆栈 的 相应 位 置 。 
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mfspr +10, SPRN_ SPRG4R:; \ 
mfspr frl2,SPRN SRRO: \ 
stw rl10,GPRI1(rl1): \ 


a 


mfspr 中 ,SPRN SRR1; 
stw rl0,0(rl1): 
rlwinm 19,19,0,14,12; 
stw ,GPRO(rI1); 
SAVE_ 4GPRS(3,7]1):; 
GPRS(7,rl11) 


9 将 保存 在 SPRG4W 的 寄存 器 rl 放 人 堆栈 的 相应 位 置 。 
e 将 SRR0 中 存放 的 中 断 返 回 地 址 存 人 寄存 器 r12. 将 SRR1 中 存放 的 MSR 的 值 存 人 寄 
存 器 芭 

9 将 进入 中 断 之 前 的 寄存 器 r1( 堆 栈 指针 ) 放 人 当前 中 断 栈 帧 的 首部 。 

e 清除 I29 寄存 器 中 的 第 13 位 , 即 清除 对 应 MSR 寄存 器 中 的 WE 位 。 

9 将 寄存 如 只 存放 入 堆栈 的 相应 位 置 . 

9 将 寄存 顺 r3 一 r8 存放 人 堆栈 的 当前 位 置 ， 

由 以 上 代码 分 析 可 以 发 现 , 宏 NORMAL EXCEPTION PROLOG 执行 完毕 后 , Linux 
系统 将 为 中 断 处 理 程序 建立 堆栈 ,并 保存 好 r3 一 r12 寄存 器 ,最 后 将 进入 中 断 处 理 程序 之 前 的 
MSR 寄存 器 和 中 断 返 回 地 址 分 别 存放 人 寄存 器 rz 和 rl2 中 。 


6.4.2 宏 EXC XFER LITE 


宏 EXC XFER LITE 的 定义 在 . /arch/powerpc/kernel/head booke.h 文件 中 ,其 源 代 
但 许 解 如 下 -。 该 宏 的 主要 作用 是 调用 do IRQ 函数 处 理 外 部 中 断 。 


#define EXC_ XFER LITE(n, hdir) \ 
ExC_XFER_ TEMPLATE(hdlr,n+1,MSR_ KERNEL,NOCOPY ,transfer _ to _ handler, \ 
ret_ from _ except) 


并 define EXC_ XFER TEMPLATE(hdlr, trap, msr,copvyee, tfer, ret) 
li rl0,trap; 
stw rl10, TRAP(r11):; 
lis rl0,msr@h:; 
cr rl0,rl0.msr(®@!l; ™ 
copyee(r10 ,19); 
bl tfer; 
.long hdlr; 
.Jong ret 
宏 EXC_ XFER_ LITE 将 调用 宏 EXC _XFER _ TEMPLATE。 通过 对 以 上 源 代码 分 析 ， 
泛 者 可 以 发 现 EXC_XFER _ LITE (0x0500,do_ IRQ) 等 效 于 以 下 语句 : 


CM Ma a a 


li rl0,0x501; \ 
stw r10, TRAP(r11); \ 
lis frl0,MSR KERNEL @h; \ 
ori ri0,r10, MSR_ KERNEL @!1; \ 
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bl transfer _ to_ handler; \ 
.long do _ IRQ:; \ 
.Jong ret from _ except 


9 这 段 程序 将 0x501 存放 到 当前 堆栈 的 trap 寄存 器 中 。 

9 将 MSR_ KERNEL 的 值 存 人 寄存 器 r10。MSR_ KERNEL 的 值 请 参考 . /include/asm 
powerpc/reg ”booke.h 文件 。 

@ 调用 transfer _ to _ handler 图 数 ,do _ IRQ 函数 及 ret_from_except。 其 中 transfer_to_ 
handler 函数 在 . /arch/powerpc/kernel/entry _ 32.S 文件 中 ,该 函数 的 源 代码 如 下 所 示 : 


transfer _ to _ handler: 


stw 2,GPR2(r11) sx Line1 关 
stw rl2, NIP(r11) /¥ Line2 ad 
stw 1t9，MSRICrLL) /x* Line3 ¥/ 
andi. 2,9,MSR _ PR ZXx Lined A 
mfctr rl2 A LineS ¥/ 
mispr 之 ,SPRN XER A Line6 */ 
stw I12,_ CTR(rl1) AZx Line7 关 了 也 
stw 位 ，XERCrl) /x Line® ¥/ 
mfspr rl2,SPRN SPRG3 A Line9 ¥/ 
addi 12,r12,-THREAD A Linel0 */ 
tovirt(12,72) x Linell */ 
beq 2f A/¥ Linxl2 *#*/ 
addi rill,rl,STACK FRAME OVERHEAD /x Linel3 *#/ 
stw rll,PT REGS(r12) A¥ Linel4 */ 
lwz rl2,THREAD DBCRO(r12) A Te TS 和 了 
andis. fi2,rl2,DBCR0O IC@h A Linelé */ 
beq+ 3f -x Line1l? 


se Line 1: 将 寄存 器 芒 存 人 堆栈 的 相应 位 置 ,寄存 带 世 保 仔 看 current 指针 。 

@ Line 2: 将 保存 着 中 断 返 回 地 址 的 寄存 器 r12 压 人 堆栈 ,transfer _ to _ handler 函数 结束 
后 将 调用 do _IRQ 因数 而 不 是 结束 中 断 处 理 程序 ,因此 需要 将 中 断 返 回 地 址 让 先 讨 人 

e Line 3: 将 保存 在 上 9 寄存 器 中 ,进入 中 断 处 理 程序 之 前 "的 MSR 寄存 器 压 人 堆栈 。 

9 Line 4: 判 断 中 断 前 的 程序 运行 在 超级 用 户 还 是 普通 用 户 模 式 , 之 后 决定 Linel2 的 beq 
2f 语句 是 否 转 移 ,“2f" 标 签 与 这 条 语句 距离 很 远 . 

e Line 5: 将 CTR 寄存 器 的 值 存 人 r12 寄存 器 。 

@ Line 6: 将 XER 寄存 器 的 值 存 人 12 寄存 器 。 

e Line 7: 将 CTR 寄存 器 的 值 存 人 堆栈 的 相应 位 置 

@ Line 8: 将 XER 寄存 器 的 值 压 栈 。 

e Line 9: 从 SPRG3 寄存 器 中 获得 被 中 断 进程 描述 符 thread 参数 的 地 址 ,然后 将 该 值 存 人 
寄存 大 rl2 中 。 
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e Line 10: 获 得 被 中 断 进 程 的 描述 符 指 针 , 然 后 将 该 值 存放 人 寄存 器 世 中 。 

@ Line 11: 对 于 ES00 内 核 ,图 数 tovirt(12, 芝 ) 相 当 于 这 = 过。 这 段 代码 通过 函数 tovirt 终 
于 获得 J 了 current 指针 ,在 E500 内 核 中 实际 上 不 必 如 此 。 但 是 对 于 基于 603E 的 Pow- 
erPC 处 理 器 ,在 进入 中 断 服务 程序 时 ,MMU 将 被 关闭 ,因此 必须 通过 SPGR3 寄存 器 中 
保存 的 task _ struct 一 之 thread 参数 的 物理 地 址 ,找到 task _struct 结构 的 物理 地 址 ,之 后 
再 通过 tovirt 函数 将 这 个 物理 地 址 转换 为 虚拟 地 址 ， 

9 Line 12: 如 果 被 中 断 进程 是 在 内 核 空 间 运行 的 则 跳 转 到 2f ,否则 继续 。 

e Line 13: 将 当前 堆栈 中 存放 的 E500 内 核 的 通用 寄存 顺 组 指针 存放 到 rll 寄存 器 中 。 如 
上 述 代码 所 示 ,中 断 堆 酚 的 大 小 为 STACK FRAME OVERHEAD + sizeof(struct pt _ 
regs) ,因此 将 rl 加 上 常数 STACK _ FRAME OVERHEAD, 可 以 得 到 堆栈 中 存放 的 
E500 内 核 的 常用 寄存 右 组 指针 . 

@ Line 14: 将 rll 寄存 器 的 值 更 新 进程 描述 符 的 thread ->reg 参数 。 

e Line 15 一 16: 如 果 被 中 断 进程 (当然 是 用 户 进程 ) 没 有 被 ptrace 跟踪 , 则 跳 转 到 3f, 否 则 
将 执行 以 下 程序 清除 所 有 Debug 事件 . 

li rl2,-1 A clear all pending debug events ¥*/ 
mtspr SPRN _DBSR ,rl2 
lis rill,global _ dbce0@ ha 


tophys(rl1,r11) 

addi rl11 ,rl1 ,global _ dbcr0@] 

lwz rl2,0(rll) 

mtspr SPRN DBCRO ,rl2 

lwz r12,4(r11) 

addi rl2,r]12,-1 

stw r12,4(r11) 

b 3f 

这 有 段 程序 清除 所 有 的 Debug 事件 后 , 跳 转 到 3f 

2: 
lwz ,THREAD _ INFO-THREAD(r]2) 
cmplw rl, A¥ rl < = curent->thread info */ 


ble stack ovf A then the kernel stack overflowed ¥/ 


如 采 被 中 断 进程 在 Linux 内 核 中 运行 ,将 执行 这 段 代 码 . 这 段 代 码 用 来 判断 寄存 器 rl 是 
否 小 于 current->thread info, 如 果 小 于 则 表示 核心 堆栈 溢出 。 由 上 文 得 知 , 在 Linux Power- 
PC 中 .核心 堆栈 与 进程 描述 符 的 thread _ info 共 鞋 一 个 8 KB 大 小 的 空间 。 当 核心 堆栈 与 
thread _info 占用 的 空间 重合 时 ,导致 核心 堆栈 溢出 。 


-四 cb] transfer to handler cont 
transfer to handler _ cont: 
3: 
mflr 19 
lwz rll,0(19) /x virtual address of handler x 7 
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ee ee ran Ke 
mtspr SPRN SRRO,r1l 
mtspr SPRN _ SRRI1,r10 
mtlr 区 
SYNC 
RFI A¥ jump to handler,enable MMU ¥#/ 
上 述 代码 是 transfer _ to _ handler 函数 最 为 核心 的 部 分 。 本 段 程序 合理 地 使 用 RFI 指令 ， 
配 妙 地 调用 了 do IRQ 国 数 与 ret _ from except 国 数 ， 
9 首先 将 LR 寄存 器 保存 到 芭 寄存 器 。 此 LR 寄存 器 的 值 为 宏 EXC _XFER _ LITE 
(0x0S00 ,do IRQ) 中 ,bl rransfer to handler 的 下 一 条 语句 的 地 址 . 
@ 将 寄存 器 9 地 址 内 的 数据 赋予 rll, 即 .long do _ IRQ- 
9 将 寄存 器 虽 +4 也 址 内 的 数据 赋予 中 , 即 .long ret from _ except。 
9 将 寄存 器 r11 的 从 赋予 SRR0 寄存 融 , 因 此 执行 RFI 指令 将 跳 转 到 do _IRQ 函数 
9 将 寄存 器 r10 的 值 赋予 SRR1 寄存 器 。 
@ 将 保存 在 中 寄存 妖 中 的 数据 赋予 LR 寄存 器 ,此 时 LR 寄存 需 将 保存 ret _from _ except 
负数 的 地 址 。 
9 使 用 RFI 指令 将 程序 跳 转 到 do _IRQ 函数 。 此 时 LR 寄存 器 中 的 为 ret from _ ex- 
cept, 因 此 妆 do IRQ 结束 后 将 继续 调用 ret from except 国 数 。 
对 于 习惯 了 单 进 程 环境 下 编程 的 程序 员 , RFI 指令 很 容易 被 误解 。 这 些 程序 员 经 笛 认 为 
RFI 指令 结束 后 ,中断 将 处 理 完毕 ,处 理 器 会 返回 到 被 中 断 的 程序 中 继续 执行 。 
许多 在 Linux 这 个 标准 多 进程 操作 系统 环境 下 编程 的 程序 员 ,实际 上 仍然 油 和 袭 着 单 进程 的 
编程 习惯 。 实 际 上 ,RFI 指令 和 中 断 处 理 程序 结束 没有 什么 必然 联系 。 在 Linux 系统 中 ,中 断 结 
束 后 也 不 一 定 要 回 到 被 中 断 的 进程 中 运行 。 在 ret _ from except 函数 执行 完毕 后 将 调用 schedule 
遇 数 ，schedule 函数 将 决定 在 中 断 处 理 结束 后 ,哪个 进程 将 获得 CPU 的 使 用 权 ,继续 执行 。 


6.4.3 do ITRO 函数 


在 Linux PowerPC 的 外 部 中 断 处 理子 系统 中 .de _ IRQ 图 数 作为 总 控 程 序 , 负 责 外 部 中 疡 
的 处 理 。 在 do _ IRQ 函数 之 前 的 中 断 处 理 程序 都 是 在 为 do _ IRQ 函数 的 运行 作 准 备 。 该 函 
数 虽 然 使 用 C 语言 编写 ,但 是 并 不 易 读 。do _ irg 国 数 的 源 代码 在 . /arch/powerpc/kernel/ 
irq.c 文件 中 。 

进入 do _ IRQ 函数 时 ,E500 内 核 的 MSR 寄存 器 的 值 为 MSR_ KERNEL。 此 时 E500 内 
核 使 能 Critical 中 断 和 Machine Check 中 断 。do _ IRQ 函数 的 主要 作用 是 执行 设备 驱动 程序 
的 中 断 服务 例 程 ,处 理 具体 的 中 断 事件 。 对 于 基于 E500 内 核 的 PowerPC 处 理 帮 ,do _ IRQ 陋 
数 可 以 简化 为 以 下 代 但 ; 


void do_ IRQ(struct pt _ regs * regs) 

| 
struct pt _ regs *old_regs = set_irg_ regs(regs); 
unsigned int irg; 
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irqg _ enter( ) ; 


/a 
* Every platiorm is required to implement ppe_ md.get _ irg. 
#* This function will either return an irg number or -1 to 
* indicate there are no more pending. 
# The value -2 is for buggy hardware and means that this [RQ 
# has already been handled. - - Tom 
/A 

irq = ppc_md.get _ irg(regs); 


if (irg 1!= NO_ IRQ && irqg 1= NO_ IRQ _ IGNORE) | 
generic_ handle_ irq(irg, regs); 
| else if (irg {= NO_ [RQ_ IGNORE) 
A*#* That s not SMP safe. . but who cares ? */ 
ppe _ spurious _ interrupts ++ ; 


irq _ exit( ); 
set_irg_ regs(old _ regs); 
| /# End do_IRQ */ 

do _ IRQ 函数 的 执行 流程 如 下 : 

@ do IRQ 哨 数 自 先 使 用 set _ irq _ regs 图 数 将 regs 参数 保存 起 来 。 

9 之 后 调用 宏 irq _ enter 为 外 部 中 断 处 理 作 必要 的 准备 。 该 宏 调 用 add _ preempt _ count 
函数 增加 当前 进程 抢占 计数 preempt _count 加 上 HARDIRQ_ OFFSET.， 

@ 对 于 MPC8541CDS 人 处理 器 系统 ,ppc md.get _irg 图 数 等 效 与 mpic get _irq 函数 。 所 
有 使 用 MPIC 中 断 处 理 程序 的 PowerPC 处 理 器 ,其 ppc _ md.get _ irg 函数 使 用 mpic 
get _irq 国 数 . ppec _ md.get _ irq 参数 的 赋值 见 本 书 的 8.2.5 节 。 

9 然后 调用 generic handle _ irgq 苹 数 。 该 图 数 通 过 mpic _ get _ irgq 国 数 得 到 的 软件 中 断 
号 ,之 后 调用 设备 驱动 程序 的 中 斯 服务 例 程 。 

9 车 用 宏 irq _ exit 退出 外 部 中 断 的 处 理 。 该 图 数 的 主要 功能 是 调用 sub _preempt _ count 
盟 数 减少 抢占 计数 . 在 irq _ exit 函数 中 ,还 可 能 调用 invoke _ softirg 因数 ,进行 软 中 断 
的 处 理 。 

9 调用 set _irq _ regs 将 保存 在 old _ regs 中 的 值 恢复 。 

@ 当 do_IRQ 函数 返回 时 ,并 不 立即 结束 外 部 中 断 的 处 理 , 而 是 调用 ret _from _ except 函 
数 进行 外 部 中 断 返 回 操 作 

下文 将 详细 说 明 在 do _IRQ 中 出 现 的 这 些 函 数 。 其 中 generic_handle _ irq 函数 是 Linux 


PowerPC 中 断 处 理 的 主体 . 


1. 宏 irqg_enter 
宏 irq__enter 在 . /include/Ainux/hardirg.h 文件 中 ,其 源 代码 如 下 ， 
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# define irqg _ enter( ) 
do | 
account _ system _ vtime(current); 
add_ preempt _ count( HARDIRQ _ OFFSET):; 
trace_ hardirg _ enter( ) ; 
| while (0) 


在 宏 irq _ enter 中 ,最 重要 的 操作 是 将 进程 描述 符 的 preempt _count 参数 增加 HARDIRQ 
_OFFSET。 宏 irg _ enter 这 样 做 的 目的 是 为 了 将 来 可 以 使 用 宏 hardirq _count 判断 当前 程序 
是 否 运行 在 中 断 处 理 程 序 的 上 下 文中 。 

2. mpic_get _ irg 函数 

mpic _ get _ irg 图 数 的 主要 作用 有 以 下 两 个 : 

9 通过 读 取 MPIC 中 断 控制 器 中 的 IACK 寄存 器 启动 外 部 中 断 响应 周期 。 

9 将 IACK 寄存 天 中 获得 的 硬件 中 断 号 转换 为 软件 中 断 号 : 

mpic _ get _irg 函数 的 源 代码 如 下 : 
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Unsigned int mpic get _ irg( void) 
| 
struct mpic * mpic = mpic_ primary; 


BUG ON(mpic =—= NULL); 


retum mpic get_ one_ irg(mpic); 


| 


mpic _ get _irq 国 数 从 mpic _ primary 变量 中 获得 mpic 结构 ,之 后 调用 mpic get one_ 
irg 图 数 读 取 IACK 寄存 顺 , 获 得 硬件 中 断 号 . 之 后 ,将 此 硬件 中 断 号 转换 为 软件 中 断 号 。 
mpic get one _ irgq 函数 源 代 码 如 下 所 示 : 


unsigned int mpic get _ one_ irg(struct mpic * mpic) 
| 
132 src: 


sc = mpic cpu_read(MPIC INFO(CPU INTACK)) & 
MPIC_ INFO(VECPRI _ VECTOR _ MASK): 
# ifde{f DEBUG _ LOW 

DBG( %s:get _one irg(): %d\n ,mpic>name,src); 
#endif 

if (unlikely(src == MPIC_ VEC _ SPURRIOUS)) 

return NO _ IRGQ; 

return irg _ linear _ revmap( mpic- > irghost, src); 

| 


9 mpic_ get _ one _ irg 图 数 首 先 从 MPIC 中 断 控制 器 的 IACK 寄存 硕 中 获得 便 件 中 断 号 。 
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此 时 src 变量 保存 着 当前 中 汤 源 的 硬件 中 断 号 。 
e 根据 和 硬件 中 断 号 src 调用 irq _ linear _ revmap 函数 获得 软件 中 断 号 。 
irg _ linear _ revmap 图 数 的 主要 作用 是 从 irq _ host 结 斧 的 反 回 中 断 上 映射 表 revmap 中 , 获 
得 与 硬件 中 断 号 src 对 应 的 软件 中 断 号 。irq _ linear _ revmap 国 数 在 . /arch/powerpc/kernel/ 


unsigned int irg _ linear _ revmap{ struct irg host * host, 
irq_ hw _ number __ t hwirg) 
| 


unsigned int * revmap; 
WARN _ ON(host->revmap _ type != IRQ_ HOST_ MAP LINEAR); 


A/* Check revmap bounds * / 
if (unlikely(hwirg 之 = host->revmap_ data. linear. size)) 
retum irq _ find _ mapping( host, hwirg); 


”* Check if revmap was allocated * / 
revmap = host->revmap _ data. linear. revmap; 
if (unlikely(revmap == NULL)) 

retum irg _find mapping( host, hwirq); 


A Fill up revmap with slow path if no mapping found */ 
if (unlikely(revmap| hwirg| == NO _ IRQ)) 
revmap| hwirg| = irg_ find mapping(host,hwirg): 


return revmap| hwirg ); 
| 

irq _ linear _ revmap 沿 数 首先 对 hwirg 参数 进行 检查 ,如果 硬件 中 断 号 hwirg 越界 , 则 调用 
irg _ find _ mapping 函数 ;如果 反 向 中 断 上 映射 表 revmap 为 NULL 时 ,也 需要 调用 irg _ find _ 
mapping 时 数 (在 Linux PowerPC 中 ,一 般 不 会 出 现 这 两 种 情况 ) : 

随后 irq _ linear _ revmap 函数 检查 当前 硬件 中 断 号 是 否 已 经 在 反 回 中 断 映 射 表 revmap 中 
建立 与 软件 中 断 号 的 映射 关系 。 

在 6.2.2 节 中 可 知 ,在 Linux PowerPC 引导 时 ,使 用 irq _ alloc _ host 函数 将 中 断 映射 表 中 
的 所 有 Entry 都 置 为 IRQ_NONE。 因 此 当 外 部 中 断 处 理 函 数 第 一 次 进入 do _ IRQ 函数 时 ， 
反 向 中 断 映射 表 revmap 中 与 此 硬件 中 断 号 对 应 的 Entry 一 定 为 IRQ_NONE。 此 时 需要 调用 
irqg _ find _ mapping 函数 从 中 断 映射 表 lirq _ map 中 获得 软 硬 件 中 断 号 的 映射 关系 ,然后 十 人 反 
向 中 断 映 射 表 revmap 中 。 

此 后 , 当 此 外 部 中 断 再 次 来 临 使 Linux PowerPC 进入 do IRQ 函数 时 ,将 不 会 再 执行 irq 
_fnd_mapping 国 数 ,而 是 从 反 同 中 断 映 射 表 revmap 中 直接 获得 对 应 的 软件 中 断 号 。Linux 
系统 使 用 反问 中 断 映射 表 revmap 的 目的 是 在 do _IRQ 函数 中 ,加 速 通 过 便 件 中 断 号 查找 软 
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件 中 断 号 的 速度 。 
3. generic _ handle _ irg 函数 
generic _ handle _ irg 图 数 对 外 部 中 断 进 行 真正 意义 上 的 处 理 。generic ”handle _irg 函数 
的 神代 人 码 在 . includevlinuxvirq.h 文件 中 。generic_handle _irq 函数 只 有 一 个 输入 参数 irq, 该 
参数 表示 当前 中 断 源 对 应 的 软件 中 断 号 。 该 函数 没有 返回 值 , 其 源 代码 详解 如 下 : 
static inline void generic _handle _irq(unsigned int irq) 
| 
struct irg _desc * desc = irg_ desc + irg; 


#ifdef CONFIG_ GENERIC HARDIRQS NO DO_IRQ 
desc- >handle_ irq(irg, desc); 
# else 
if (likely(desc- > handle _ irg)) 
desc- > handle _ irg(irgq, desc): 
do _ IRQ(irg); 
# endif 
| 


generic _ handle _ irg 函数 首先 根据 软件 中 断 号 irq, 在 外 部 中 断 描述 符 表 irq _ desc 中 获得 
对 应 的 外 部 中 断 描述 符 desc。 之 后 ,该 函数 判断 外 部 中 断 描述 符 desc 的 handle _ irg 参数 是 否 
为 空 。 对 于 不 同 的 外 部 中 断 源 , 其 中 断 描述 符 desc 的 handle _ irg 参数 有 可 能 不 为 空 ,也 有 可 
能 为 空 。 
在 基于 MPIC 中 断 控制 器 的 Linux 2.6 内 核 中 ,不 同 种 类 的 外 部 设备 将 会 为 自己 的 中 断 
摘 述 符 desc 设置 handle _ irg 参数 ， 
例如 ,对 于 MPC8541 处 理 器 的 TSEC 控制 器 ,desec- >handle _irq 为 handle fasteoi _ irq 
图 数 ; 而 对 于 MPC8541 处 理 器 的 外 部 中 断 源 ,其 desc->handle _ irg 参数 为 空 ,此 时 需要 调用 
do_IRQ 国 数 处 理 这些 中 断 源 。 
do _IRQ 销 数 的 源 代码 在 .人 kernel/irqg/handle.c 文件 中 ,对 此 有 兴趣 的 读者 可 以 自行 
阅 谈 这 段 代 码 作 为 练习 ,本 书 对 此 将 不 做 叙述 。handle _fasteoi _ irq 函数 在 .kernelvirq/ 
chip.c 文件 中 。 在 Linux 系统 中 中 还 有 其 他 一 些 以 handle 开头 的 中 断 处 理 函 数 ,这 些 函 数 也 
在 chip.c 文件 中 ,如 下 : 
@ handle_ simple irqg， 此 函数 的 实现 与 handle fasteoi _ irg 国 数 几乎 相同 
e handle _level _irq。 此 函数 在 处 理 结束 时 使 用 mask 函数 重新 使 能 中 断 。8259 控制 器 
使 用 了 此 国 数 处 理 外 部 中 断 
9 handle _edge __irq。 此 图 数 处 理 采 用 边沿 触发 的 外 部 中 断 。 在 一 个 实际 的 系统 中 ,采用 
边沿 触发 方式 的 外 部 中 断 较 少 。 虽 然 Linux PowerPC 定义 了 这 个 函数 ,但 是 这 个 函数 
不 经 和 党 使用。 
9 handle _ percpu_ irq: 这 个 函数 主要 用 于 基于 多 人 处理 器 的 Linux 系统 ,如 IBM 的 CELL 
处 理 从 。 在 CELL 处 理 右 中 ,外 部 中 断 被 分 为 多 种 ,有 些 中 断 必须 由 CELL 人 处理 器 的 某 
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个 CPU 单独 处 理 , 因 此 Linux PowerPC 对 此 类 中 断 的 处 理 不 需要 使 用 自 旋 锁 ,该 函数 
的 处 理 过 程 也 较为 简单 
本 书 只 介绍 handle _ fasteoi _irq 函数 ,因为 这 个 函数 应 用 得 最 为 广泛 ,其 主要 源 代码 和 详 
细 说 明 如 下 。handle _fasteoi _ irg 函数 共有 3 个 输入 参数 
e irq 参数 用 来 描述 软件 中 断 号 。 
@ desc 仓 放 与 外 部 中 断 对 应 中 断 描述 符 。 
@ regs 存放 PowerPC 处 理 占 的 系统 寄存 器 。 


void fastcall 
handle_ fasteoi _ irg(unsigned int irg,struct irg dese * desc) 
| 

unsigned int cpu = smp processor id():; 

struct irgaction * action; 

Irqreturn _ t+ action _ ret; 


spin _ lock( &desc- > lock) ; 


if (wniikely( desc- >status &@ [RQ _ INPROGRESS)) 
Eoto out; 


desc >status 必 三 一 (IRQ_REPLAY | IRQ_ WAITING); 
kstat _ cpu(cpu) .irgslirg] ++ ; 


W 其 
* 于 its disabled or no action available 
* keep it masked and get out of here 
¥/ 
action = desc- >action; 
if (unlikely(! action || (desc- >status & IRQ DISABLED))) | 
desc- > status | = IRQ _ PENDING: 
Boto out; 


| 


handle _ fasteoi _ irgq 国 数 击 要 对 临界 区 desc 进行 访问 ,因此 该 图 数 调 要 获得 目 旋 锁 后 才 
能 访问 desc; 之 后 ,handle _ fasteoi _irq 函数 需要 对 存放 在 外 部 中 断 描述 符 desc 内 的 中 断 状 态 ， 
进行 检查 ,该 状态 不 能 为 [RQ _ INPROGRESS; 然 后 取出 存放 在 中 断 描述 符 desc 内 的 action 
指针 ,action 指针 作为 队 首 指针 指向 一 个 irqaction 类 型 的 队列 ， 

action 指针 队列 的 每 一 个 Entry, 在 设备 驱动 程序 中 ,使 用 request _ irg 函数 进行 中 断 申请 
时 创建 。 在 这 个 指针 队列 中 ,每 一 个 Entry 存放 着 相应 外 部 中 断 服务 例 程 的 人 口 地 址 。 

如 果 设 备 驱 动 程序 在 调用 request _ irq 函数 时 .不 使 用 IRQF _SHARED 参数 进行 中 断 申 
请 ,那么 在 对 应 外 部 中 断 描述 符 desc 的 action 指针 队列 中 ,只 有 一 个 数据 成 员 ; 和 否则 在 对 应 外 
部 中 断 描 述 符 desc 的 action 指针 队列 中 ,有 一 个 或 者 多 个 数据 成 员 。 
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action _ ret = handle IRQ _ event(irg, action):; 
if (1 noirgdebug) 


note_ interrupt(irg, desc, action _ ret); 


spin _ lock( &desc- > lock),; 

desc- 之 status 及 = 一 IRQ_ INPROGRESS; 
OUt: 

desc- >chip- >eoilirg); 


spin _unlock( &desc- > lock); 
| 

这 上 段 程 厅 自 先 调用 handle_ IRQ _ event 函数 ,处 理 action 指针 队列 。handle IRQ _ event 
国 数 的 详细 说 明 见 6.4.3 节 。 然 后 调用 desc 一 之 chip 一 之 eoi 函数 ,解除 PowerPC 处 理 器 的 “ 硬 
件 中 断 状态 ”。 对 于 基于 MPIC 中 断 控制 器 的 Linux PowerPC. desc 一 chip 一 >eoi 函数 等 效 于 
mpic _ end _ irg 函数 。 

在 mpic _end _ irg 函数 中 ,调用 mpic _ eoi 函数 对 MPIC 中 断 控制 器 中 的 EOI 寄存 器 进行 
与 操作 ,解除 MPIC 中 断 控 制 器 的 中 断 状态 。 此 时 对 于 PowerPC 处 理 器 ,外 部 中 断 已 经 处 理 
完毕 ,但 是 对 于 Linux PowerPC, 中断 处 理 过 程 并 没有 结束 。 

handle _ fasteoi _ irq 图 数 返 回 后 ,generic _handle _ irg 国 数 将 调用 irq _ exit 函数 ,最 后 结 
束 do_ IRQ 函数 。 这 里 再 次 提醒 读者 注意 ,外 部 中 断 处 理 程序 在 结束 do _IRQ 函数 后 ,不 会 
返回 到 被 中 断 的 程序 ,而 是 调用 ret _ from except 函数 完成 外 部 中 断 处 理 的 返回 。 

4. handle _ IRQ _ event 函数 

handle _ IRQ _ event 图 数 幸 用 设备 驱动 程序 的 中 断 服 务 例 程 ,对 引发 外 部 中 断 事 件 的 中 
断 源 进行 处 理 , 该 函数 在 . /kernel/irg/handle.c 文件 中 ,其 详细 说 明 如 下 : 


irqretum Thandle IRQ _ event( unsigned int irg, struct irqaction * action) 
| 

irqretum _ t ret,retval = IRQ_ NONE:; 

unsigned int status = (0; 


handle_ dynamic _ tick(action ) ; 


i (1 (action->flags & IRQF _ DISABLED)) 
local_ irg_ enable_in_ hardirg(); 


handle IRQ _ event 函数 首先 判断 ,相应 的 设备 驱动 程序 在 调用 request _irq 函数 时 ,是 
否 设置 了 IRQF DISABLED 位 。 如 果 该 位 被 设置 , 则 不 调用 local irq enable_ in_ hardirq 
函数 使 能 外 部 中 断 , 此 时 在 整个 外 部 中 断 处 理 过 程 中 其 他 外 部 中 断 将 无 法 重信 。 

如 果 设 备 驱 动 程序 调用 request _ irq 函数 时 没有 设置 [RQF DISABLED 位 , 则 调用 local 
_irq _enable in_ hardirg 图 数 。local _irg_ enable_ in _ hardiry 函数 使 用 wrteei 指令 将 E500 
内 核 的 MSR 寄存 器 EE 位 置 为 1 ,使 能 外 部 中 断 。 
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在 使 能 外 部 中 断后 ,其 他 外 部 中 断 就 有 可 能 在 当前 中 断 没 有 处 理 完毕 时 , 重 人 外 部 中 断 处 
理 程序 ,从 而 形成 中 断 拱 套 。 在 一 个 系统 中 ,占用 处 理 器 时 间 相 对 较 长 的 中 断 处 理 函 数 最 好 不 
使 用 IRQF _DISABLED 参数 进行 中 断 请 求 ,以 保证 优先 权 较 高 的 中 断 可 以 重 人 该 中 断 服务 
例 程 ,从 而 使 优先 权 较 高 的 中 断 可 以 获得 更 高 的 响应 速度 。 


do | 
ret = action- > handler(irg,action- > dev _ id):; 
if (ret == IRQ_ HANDLED) 
status | = action- > flags; 
retval | = ret; 
action = action- > next; 


| while (action); 


if (status & IRQF_ SAMPLE _ RANDOM) 
add _ interrspt _ randomness(irg); 
local _ irg_ disablel( ); 


return retval; 


这 有 段 程序 的 执行 流程 如 下 : 

(1) 这 段 程序 调用 action->handler(irq,action->dev_ id,regs) 国 数 进 行 具体 的 外 部 中 断 
处 理 。 此 函数 是 相应 设备 驱动 程序 在 调用 request _ irg 函数 时 ,所 注册 的 中 断 服务 例 程 。 

(2) 在 此 函数 执行 完毕 后 需要 对 返回 值 进 行 检查 ,如 果 返 回信 为 IRQ_HANDLED, 则 表 
示 此 函数 已 完成 中 断 处 理 ; 否则 表示 设 有 完成 中 断 处 理 ,这 种 情况 主要 发 生 在 request _ irg 图 
数 使 用 IRQF _ SHARED 参数 ,进行 中 断 申 请 的 设备 驱动 程序 中 ,此 时 可 能 有 多 个 中 断 服 务 例 
程 共享 一 个 中 断 事件 。 如 果 发 生 的 中 断 事件 不 由 当前 中 断 服 务 例 程 处 理 , 则 中 断 服务 例 程 并 
不 处 理 此 中 断 事 件 . 而 直接 退出 .返回 IRQ_NONE, 并 由 下 一 个 中 断 服务 例 程 处 理 该 中 断 
事件 。 

因此 设备 驱动 程序 的 编写 者 ,在 编写 共享 中 断 事件 的 函数 时 ,需要 对 当前 中 断 事 件 进行 判 
断 。 如 果 当 前 中 断 事件 不 是 发 向 此 中 断 事 件 处 理 函 数 ,该 函数 需要 立即 返回 ,上 且 返 回 值 为 


IRQ _ NONE. 
(3) 然后 这 上段 程序 继续 处 理 action 指针 队列 的 其 他 中 断 服务 例 程 ,直到 action 队列 中 所 有 


的 中 断 服务 例 程 都 处 理 完毕 

(4) 最 后 ,这 段 函 数 调 用 local _ irg _ disable 负数 , 茜 目 中断。 由 此 可 见 , 在 Linux PowerPC 
外 部 中 断 处 理 系统 中 ,只 人 允许 对 在 local irq _ enable_ in_ hardirq 图 数 和 local _ irq _ disable 辑 
数 之 间 的 代 公 进行 重信 。 

5. irg _ exit 函数 

irg _exit 图 数 在 . /kernel/softirq.c 文件 中 定义 。 该 图 数 的 执行 过 程 基本 上 是 宏 irq _ en- 
ter 执行 的 逆 过 程 ,其 代码 如 下 所 示 : 
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void irqg _ exit(void) 
account _ system _ vtime( current): 
trace_ hardirg _ exit( ); 
sub _ preempt _ count(IRQ_ EXIT _ OFFSET); 
ff (! in_ interrupt() 有 及 local _ softirg _ pending( )) 
invoke _ softirg( ); 
preempt _ enable_ no _ resched( ) ; 


在 irq_ exit 图 数 中 ,调用 了 一 个 重要 的 函数 invoke _ softirqg 一 之 do _ softirq, 该 函数 用 来 处 
理 Linux 系统 中 的 软件 中 断 , 该 函数 同时 满足 以 下 两 个 执行 条 件 时 将 被 执行 : 

(1) in _ interrupt 图 数 的 返回 值 为 0, 即 当前 图 数 没 有 在 硬件 中 断 或 者 软件 中 断 的 上 下 文 
中 执行 。 在 单 CPU 系统 中 ,在 sub _preempt count 函数 执行 完毕 后 ,已 经 保证 了 该 函数 没有 
在 人 硬件 中 断 的 上 下 文中 ,此 处 使 用 in _ interrupt 函数 作为 执行 条 件 的 主要 目的 是 防止 软件 中 
断 服 务 例 程 的 重 人 。 

(2) local _ softirq _ pending 函数 的 返回 值 为 1, 即 在 当前 CPU 中 存在 未 处 理 的 软件 中 断 

此 时 Linux 系统 将 调用 invoke _ softirg 函数 进行 软件 中 断 的 处 理 ,如果 以 上 两 个 条 件 中 有 
-个 没有 满足 , 则 不 进行 软件 中 断 的 处 理 。 

由 于 软件 中 断 服务 例 程 不 可 重 入 ,因此 如 果 Linux 系统 正在 处 理 软件 中 断 时 ,上 下 文 被 其 
他 硬件 中 断 程序 切换 ,此 时 这 个 硬件 中 断 程序 将 不 能 执行 自己 的 软件 中 断 程序 ,而 是 直接 退出 
irq _ exit 畏 数 , 

Linux 系统 采用 这 种 机 制 可 以 保证 软件 中 断 程序 能 被 Linux 系统 串 行 处 理 。 


6.4.4 软件 中 断 的 处 理 


Linux 系统 为 了 提高 硬件 中 断 处 理 程序 的 效率 ,引入 了 软件 中 断 的 概念 。 在 Linux 系统 
中 ,中 断 的 处 理 可 以 被 分 为 两 个 过 程 , 分 别 是 硬件 中 断 处 理 与 软件 中 断 处 理 , 这 两 个 处 理 过 程 
也 经 贡 被 称 作 中 断 处 理 的 上 半 部 分 与 下 半 部 分 。 

在 Linux 系统 中 ,中 断 处 理 的 上 半 部 分 指 invoke _ softirq 图 数 之 前 的 中 断 处 理 程 序 ,而 下 
半 部 分 指 invoke _ softirg 函数 和 ksoftirqd 核心 进程 。 

系统 程序 员 在 编写 设备 驱动 程序 时 ,可 以 将 一 些 需 要 立即 处 理 的 中 断 服务 程序 放 入 中 断 
处 理 的 上 半 部 分 运行 。 使 用 request _ irg 函数 挂 接 的 中 断 服务 例 程 运行 在 中 断 处 理 程 序 的 上 
半 部 分 。 

有 时 ,系统 程序 员 还 可 以 根据 需要 ,将 一 些 对 实时 性 要 求 不 高 的 程序 进行 延 时 处 理 . 由 上 
文 得 知 ,程序 在 中 断 处 理 的 上 半 部 分 运行 时 , 处理 器 处 于 中 断 状 态 ; 而 程序 在 中 断 处理 的 下 半 
部 分 运行 时 ,处 理 器 处 于 正常 状态 ,中 断 和 异常 处 理 程 序 可 以 打 断 这 段 程序 的 运行 ,从 而 提高 
整个 系统 对 中 断 的 响应 能 力 。 

软件 中 断 概 念 的 引入 目的 就 是 减轻 中 断 处 理 的 负担 ,从 而 提高 Linux 系统 对 中 断 的 响应 
能 力 。 对 于 一 个 实际 的 应 用 ,对 驱动 程序 中 的 中 断 服务 例 程 进 行 上 下 半 的 划分 是 一 个 系统 工 
程 ,并 没有 一 个 统一 的 公式 。 本 书 不 再 阐述 如 何 划 分 软 硬 件 中 断 间 的 界限 ,只 是 提醒 读者 注意 
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这 个 划分 对 于 Linux 系统 的 实时 性 十 分 重要 

1. 软件 中 断 处 理 程序 的 初始 化 

Linux 系统 定义 了 多 种 软件 中 断 类 型 ,这些 中 断 类 型 在 .vincludevlinuxvinterrupt.h 文件 
中 定义 ,其 含义 如 表 6-3 所 示 


表 6-3 Linux 系统 中 的 软件 中 断 类 型 














加 软件 中 断 类 型 描 述 

HI_SOFTIRQ 加 0 “| 级 别 最 高 的 软件 中 断 

TIMER _ SOFTIRQ 与 系统 时 钟 异 常 有 关 的 软件 中 断 

NET _TX_SOFTIRQ 2 与 网 卡 发 送 数据 报 文 相关 的 软件 中 断 

NET_ RX_ SOFTIRQ 3 。 | 与 网 卡 发 送 接收 报 文 相关 的 软件 中 断 | 
BLOCK _ SOFTIRQ 4 与 硬盘 交互 相关 的 软件 中 断 

TASKLET _ SOFTIRQ | 5 | 常用 的 软件 中 断 

SCHED_ SOFTIRQ | 二 | 与 Linux SMP 的 Load Balance 算法 有 关 的 软件 中 断 


优先 级 为 1 一 4 的 软件 中 断 类 型 是 Linux 系统 分 别 为 系统 时 钟 ,网络 协议 栈 和 硬盘 特别 设 
置 的 ,普通 设备 驱动 程序 只 能 使 用 HI SOFTIRQ 和 TASKLET _ SOFTIRQ 软件 中 断 类 型 。 
其 中 HI_SOFTIRQ 软件 中 断 类 型 用 于 一 些 对 实时 性 要 求 较 高 的 设备 驱动 程序 ,如 声卡 及 显 
卡 .而 其 他 设备 驱动 程序 使 用 TASKLET _ SOFTIRQ 软件 中 断 类 型 ， 

Linux 系统 使 用 soft _irq _ int 函数 将 HI SOFTIRQ 和 TASKLET _ SOFTIRQ 软件 中 断 
进行 初始 化 ,该 国 数 的 源 代 码 在 .kernelysoftirq.c 文件 中 。 

void _init softirg _ init(vaid) 

| 
open_ softirg( TASKLET _ SOFTIRQ, tasklet _ action, NULL); 
open _ softirg( HI_ SOFTIRQ, tasklet _ hi _ action, NULL); 

| 


softirqg _init 函数 调用 open _ softirq 图 数 初 始 化 相应 的 软件 中 断 ,并 注册 相应 的 软件 中 断 
处 理 函 数 。 在 Linux 系统 中 ,软件 中 断 事件 发 生 时 ,将 调用 相应 的 软件 中 断 处 理 函 数 
softirq _ init 函数 的 执行 流程 如 下 : 
(1) 将 TASKLET _ SOFTIRQ 软件 中 断 的 处 理 函 数 设 置 为 tasklet _ action 函数 。 
(2) 将 HI_SOFTIRQ 软件 中 断 的 处 理 函 数 设置 为 tasklet _ hi _ action 函数 ， 
在 Linux 系统 中 , NET_ TX _ SOFTIRQ 和 NET _ RX _ SOFTIRQ 软件 中 断 类 型 由 
. /net/core/dev.c 文件 的 net _ dev _ init 函数 进行 注册 ;BLOCK _ SOFTIRQ 软件 中 断 类 型 由 
./blockAl_ rw _blk.c 文件 的 blk _ dev _ init 函数 进行 注册 ;SCHED _ SOFTIRQ 软件 中 断 类 
型 由 /kernel/sched.c 文件 的 sched _init 函数 进行 注册 ,其 源 代码 如 下 : 
A# net _ dev _init 函数 */ 
open_ softirq{ NET_ TX _ SOFTIRQ,net_ tx_ action, NULL); 
open_ softirq( NET RX SOFTIRQ,net_rx_ action, NULL); 
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A blk dev init 国 数 #/ 
open _ softirq( BLOCK _ SOFTIRQ, blk done _ softirg, NULL):; 


/¥ sched _init 函数 * 7 
open _ softirq( SCHED _ SOFTIRQ, ran _ rebalance _ domains, NULL); 


除 此 之 外 ,Linux 系统 还 使 用 do_ pre_ smp _ initcalls - > spawn _ ksoftirqd 一 > cpu _ call 
back 一 之 kthread _ create 图 数 初 始 化 ksoftirqd 核心 进程 。ksoftirqd 核心 进程 的 主要 作用 是 处 
理 在 irq _ exit 函数 中 因为 软件 中 断 不 能 被 重信 而 未 能 及 时 处 理 的 软件 中 断 。ksoftirqd 函数 在 
. /kernel/softirq.c 文件 中 定义 。 其 主要 源 代 码 如 下 所 示 : 

static int ksoftirgd(void * _ bind _ cpu) 
| 
set_ user _ nice(current, 19); 
current->flags | = PF_ NOFREEZE; 
set_ current state( TASK INTERRUPTIBLE): 

在 Linux SMP 中 ,每 一 个 CPU 都 有 自己 的 ksoftirqd 进程 。 在 Linux SMP 中 ,使 用 “per _ 
cpu(ksoftirqd,cpu) 果 效 调用 相应 的 ksoftirqd 核心 进程 。 在 ksoftirqd 函数 中 ,首先 调用 set _ 
user _ nice 半数 设置 核心 进程 ksoftirqd 的 静态 优先 权 设 置 为 139 ,由 此 可 见 该 核心 进程 的 优先 
芭 十 分 低 ; 之 后 该 函数 将 进程 描述 符 的 flags 参数 的 PF _NOFREEZE 位 置 为 1 ,表示 该 进程 不 
可 被 挂 起 ;最 后 该 函数 将 该 进程 的 状态 设置 为 TASK_ INTERRUPTIBLE ,准备 将 ksoftirqd 进 
程 切换 出 去 。 


while (! kthread should _ stop()) | 
preempt _ disable( ): 
if (! local_ softirq_ pending()) | 
preempt _ enable_ no_ resched( ); 
schedule{ ) ; 
preempt _disable( ) ; 
| 


set_ current_ state(TASK RUNNING):; 


ksoftirq 函数 的 主体 是 一 个 大 的 while 循环 ,只 要 kthread _ should _stop 函数 的 返回 值 为 
0, 该 while 循环 将 一 直 运 行 。 在 while 循环 中 ,ksoftirq 函数 首先 判断 ,在 当前 系统 中 ,是 否 有 
未 处 理 的 软件 中 断 。 如 果 没 有 , ksoftirqd 进程 将 使 用 schedule 函数 将 自己 切换 出 去 ,使 
ksoftirqd 进程 进入 等 竺 状态 ,否则 继续 执行 。 当 ksoftirqd 进程 被 唤醒 后 ,首先 禁止 进程 抢占 ， 
之 后 将 ksoftirad 进程 的 状态 设置 为 TASK_ RUNNING. 

while (local_ softiry _ pending( )) | 
/ # Preempt disable stops cpu going offline. 
If already offline, we'll be on wrong CPU 
don t process */ 
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if (cpu_ is_ offline((long) bind cpu)) 
goto wait _ to_ die; 
do _ softirg( ); 
preempt _ enable_ no_ resched!( ): 
cond _ resched!{ ); 
preempt _ disable( ); 
| 
preempt _ enable( ); 
set curent state(TASK INTERRUPTIBLE); 
| 
aet_eurrent state(TASK RUNNING); 
return 0; 
wat_ to_ die: 
preempt _ enable( ); 
A# Wait for kthread stop */ 
set_ current _ state( TASK _ INTERRUPTIBLE); 
while (! khread should _ stop()) | 
schedule( ) ; 
set current state(TASK [INTERRUPTIBLE): 
| 
_ set current state(TASK RUNNING); 
return 0; 
| /# End ksoftirqd */ 

这 段 程 序 再 次 判断 当前 系统 是 否 有 未 处 理 的 软件 中 断 。 在 Linux 系统 中 ,虽然 核心 进程 
ksoftirqd 的 级 别 非常 低 , 但 是 该 进程 仍然 有 可 能 在 系统 中 设 有 任何 软件 中 断 事 件 时 被 激活 运 
行 。 因 此 这 段 程序 需要 进行 这 种 判断 :如 果 有 未 处 理 的 软件 中 断 事件 , 则 继续 执行 ,否则 将 
ksoftirqd 进程 的 状态 设置 为 TASK _ INTERRUPTIBLE, 然 后 调用 schedule 函数 将 ksoftirqd 

(1) 调用 cpu _ is _ offline 函数 ,判断 运行 ksoftirqd 进程 的 CPU 是 否 在 线 , 如 果 该 CPU 不 
在 线 , 则 跳 转 到 wait _ to _ die 标签 处 执行 。 

(2) 如 果 运 行 ksoftirqd 进程 的 CPU 在 线 , 则 调用 do _ softirg 函数 对 Linux 系统 中 未 处 理 
的 软件 中 断 一 一 处 理 。Linux 系统 要 求 软件 中 断 服务 例 程 串 行 执行 , 因 此 当 一 个 软件 中 断 服 
务 例 程 需要 执行 ,发 现 男 外 一 个 软件 中 断 服务 例 程 没有 执行 完毕 时 ,这 个 软件 中 断 服务 例 程 将 
不 会 执行 。do _ softirq 函数 会 串 行 地 处 理 Linux 系统 中 的 软件 中 断 . 该 函数 的 详细 说 明 见 
Paes 

(3) 允许 进程 抢占 。 将 ksoftirqd 进程 的 状态 设置 为 TASK _ INTERRUPTIBLE ,然后 继 
续 在 "while (1 kthread _should _ stop()) "循环 中 睡眠 。 

在 正常 情况 下 ,核心 进程 ksoftirqd 一 经 运行 将 不 会 结束 ,除非 关闭 Linux 系统 ,或 者 由 于 
系统 异 弟 ,由 kthread _stop 函数 结束 核心 进程 ksoftirqd。 
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2. 将 软件 中 断 服务 例 程 挂 接 到 软件 中 断 处 理 程序 

系统 程序 员 在 书写 设备 驱动 程序 时 ,可 以 将 一 些 对 实时 性 要 求 不 高 的 中 断 服务 例 程 ,加 人 
到 Linux 系统 的 软件 中 断 处 理 程序 中 ,之 后 由 do _ softirq 国 数 统一 处 理 。Linux 系统 提供 了 两 
个 图 数 ,tasklet schedule 和 tasklet hi schedule ,实现 这 一 功能 。 

其 中 tasklet _schedule 函数 将 TASKLET _ SOFTIRQ 类 型 的 软件 中 断 服务 例 程 加 人 到 软 
件 中 断 处 理 程 序 中 ;而 tasklet _ hi _ schedule 函数 将 HI _SOFTIRQ 类 型 的 软件 中 断 服务 例 程 
加 入 到 软件 中 断 处 理 程序 中 ， 

tasklet _ schedule 国 数 和 tasklet _ hi _ schedule 函数 的 实现 机 制 较为 类 似 , 下 文 将 详细 介绍 
tasklet _ schedule 函数 的 实现 。 设 备 驱 动 程序 可 以 调用 tasklet _ schedule 函数 将 软件 中 断 服务 
例 程 加 和 到 软件 中 断 处 理 程序 中 。 

但 是 在 此 之 前 ,系统 程序 员 需 要 在 设备 驱动 程序 中 ,使 用 tasklet _ init 函数 对 软件 中 断 服 
务 例 程 进行 初始 化 。tasklet _ init 图 数 一 共 有 三 个 输入 参数 ,分 别 是 tfunc 和 data 参数 。 其 中 
func 参数 存放 软件 中 断 服务 例 程 的 地 址 ,而 data 参数 存放 软件 中 断 服务 例 程 的 输入 参数 。 下 
文 将 重点 介绍 参数 t. 

参数 t 是 tasklet _ struct 结构 的 变量 。Linux 系统 使 用 tasklet _ struct 结构 描述 设备 驱动 
程序 中 的 软件 中 断 服务 例 程 ,该 结构 在 . /include/inux/interrupt.h 文件 中 定义 ,该 结构 一 共 
有 5 个 数据 成 员 ,分别 为 next,state,count, ¥ func 和 data, 其 源 代码 如 下 所 示 : 


struct tasklet _ struct 

| 
struct tasklet struct # next; 
unsigned long state; 
atomic _ T count; 
void ( # func) (unsigned long): 
unsigned long data; 
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(1) next 参数 指向 下 一 个 可 用 的 软件 中 断 服务 例 程 。 在 Linux 系统 中 ,所 有 类 型 相同 的 
软件 中 断 服务 例 程 组 成 一 个 单 向 链表 ， 

上 文 讲述 过 在 Linux 系统 中 ,一 共有 6 大 类 软件 中 断 类 型 。 为 此 在 Linux 系统 中 ,一 共 设 
置 了 6 个 单 回 链表 ,连接 所 有 类 型 相同 的 软件 中 断 服务 例 程 ,存放 TASKLET _ SOFTIRQ 和 
HI_SOFTIRQ 类 软件 中 断 服 务 例 程 的 链 首 指针 在 . /kernel/softirg.c 文件 中 。 


static DEFINE PER_ CPU(struct tasklet head,taskjlet _vec) = |! NULL |}; 
static DEFINE PER CPU!struct tasklet head,tasklet hi vec) = | NULL | 


TASKLET_SOFTIRQ 和 HI_SOFTIRQ 软件 中 断 的 链 首 指针 分 别 为 per _cpu _ tasklet 
_vec 和 per_ cpu __tasklet hi vec, 其 数据 类 型 为 tasklet head 
(2) state 参数 表示 软件 中 断 服务 例 程 的 状态 。state 参数 为 TASKLET _ STATE _ 
SCHED 时 ,表示 软件 中 断 服务 例 程 已 经 加 人 到 软件 中 断 队 列 中 ,等待 处 理 ; 为 TASKLET _ 
STATE_RUN 时 ,表示 当前 软件 中 断 服 务 例 程 正在 被 处 理 . 
(3) count 参数 存放 当前 结构 的 原子 锁 ， 
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(4) func 参数 用 来 存放 软件 中 断 服务 例 程 的 入口 地 址 。 

(5) data 参数 用 来 存放 软件 中 断 服务 例 程 所 需要 的 参数 。 

Linux 系统 使 用 tasklet _ init 图 数 ,初始 化 软件 中 上 断 服 务 例 程 的 tasklet _ struct 结构 ,该 困 
数 的 源 代 码 如 下 : 


void tasklet init(struct tasklet _ struct *t, 
void ( * func) (unsigned long) ,unsigned long data) 

| 

t->next = NULL; 

t->state = 0; 

atomic _ set( 上 &t- > count.0): 

t->func = func; 

t->data = data; 
| 


该 函数 将 依次 设置 tasklet _struct 结构 的 next、state、count,func 和 data 参数 。 将 state 参 
数 赋值 为 0 等 效 于 将 此 参数 赋值 为 TASKLET _ STATE _SCHED。 除了 使 用 该 函数 ,Linux 
系统 还 可 以 使 用 宏 DECLARE _TASKLET DISABLED 和 DECLARE _ TASKLET 静态 创建 
tasklet _ struct 结构 ,这 两 个 宏 的 源 代码 如 下 : 


#define DECLARE TASKLET(name,func,data) \\ 
struct tasklet struct name = | NULL,0,ATOMIC INIT(0),func, data | 


tdefine DECLARE TASKLET DISABLED(name,func,data) \ 
struct tasklet _ struct name = | NULL,0,ATOMUIC INIT(]),func, data | 


当 系 统 程序 员 需 要 实现 软件 中 断 服务 例 程 时 ,必须 首先 将 tasklet _ struct 结构 进行 初始 
化 ,才能 使 用 tasklet _ schedule 函数 将 软件 中 断 服务 例 程 加 入 到 软件 中 断 处 理 程序 中 。 
tasklet _ schedule 函数 的 定义 在 .vincludevlinuxvinterrupt.h 文件 中 ,其 源 代 码 如 下 。 


static void tasklet schedule(struct tasklet _ struct * t) 
| 
i (1 test and set_ bit(TASKLET _ STATE _ SCHED, &t->state)) 
__ tasklet schedule(1); 
| 


tasklet schedule 函数 首先 检查 tasklet struct 结构 之 前 存放 的 TASKLET _ STATE _ 
SCHED 标示 。 注 意 t->state 是 一 个 临界 变量 ,因此 在 本 程序 中 使 用 原子 操作 test _ and _ set 
_bit 设 置 TASKLET_ STATE _ SCHED 标示 。 

在 这 段 程序 中 ,test_and_ set_ bit(TASKLET_ STATE _ SCHED, &&t- state) 函 数 的 作 
用 是 将 TASKLET _ STATE _ SCHED 设置 到 t 一 >state 参数 中 ,同时 将 t 一 >state 参数 之 前 存 
放 的 数值 返回 。 因 此 当 +->state 参 数 之 前 存放 的 数值 为 TASKLET _ STATE _ RUN 时 , 即 
对 应 的 软件 中 断 服 务 例 程 正在 被 处 理 时 ,tasklet _ schedule 函数 将 直接 返回 ;否则 调用 _ 
tasklet _ schedule 国 数 将 当前 软件 中 断 服务 例 程 加 和 人 到 软件 中 断 服务 队列 中 。 

249 


_ tasklet schedule 函数 在 . /kernel/softirq.c 文件 中 ,其 源 代码 如 下 所 示 : 


void fastcall __ tasklet _ schedule(struct tasklet struct # tt) 
| 
unsigned long flags; 


local_ irg_ save{flags): 
t>next= get cpu var(tasklet vec).list; 
_ get_ cpu_ var(tasklet _ vec) .list = +t; 
raise_ softiry irgoff( TASKLET SOFTIRQ): 
local irg_ restore( flags); 
| 
3. do _ softirg 函数 
当 设 备 驱动 程序 使 用 rasklet _schedule 函数 ,将 将 软件 中 断 服务 例 程 挂 接 到 软件 中 断 处 理 
程序 后 ,Linux 系统 使 用 do _softirq 函数 处 理 这 些 软件 中 断 服 务 例 程 。do _ softirq 函数 在 ./ 
arch/powerpc/kernel/irg.c 文件 中 定义 ,其 源 代码 如 下 : 
void do _ softirg( void) 
| 
unsigned long flags; 


if (in_ interrupt( )) 
TettIrT 


local _ irqg _ save( flags); 


if (Jocal _ softirg _ pending( )) 
do _ softirg _ onstack( ); 


local _ irg _ restore( flags); 
| 


如 生 当 前 进程 运行 在 中 断 的 上 下 文中 ,该 函数 将 直接 返回 ; 否则 关闭 外 部 中 断 , 之 后 进 一 
步 判 断 当前 系统 中 是 否 有 未 处 理 的 软件 中 断 事 件 。 如 果 在 Linux 系统 中 存在 未 处 理 的 软件 中 
断 , 则 调用 do _ softirq _ onstack -> do _softirq 函数 处 理 此 软件 中 断 事件 。 

do _ soft _ irg 函数 在 . /kernel/softirg.c 文件 中 定义 ,其 源 代码 如 下 所 示 ， 


#define MAX_ SOFTIRQ_ RESTART 10 


asmlinkage void _ do_ softirg(void) 
| 
struct softirg _ action * h; 
— U2 pending; 
int max _ restart = MAX SOFTIRQ RESTART:; 
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int CPU 


pending = local softirqg _pending( ); 
account _ system _ vtime( current): 
local bh _ disable( (unsigned long) _ builtin return _ address(0)); 


account _ system _ vtime( current ) ; 


_ local_ bh _ disable( (unsigned long) buoiltin return _ address(0)):; 
trace _ softirq _ enter( ); 


cpu = smp processor _ id(); 
该 函数 首先 获得 当前 CPU 中 的 pending 变量 ,然后 调用 _ local _ bh _ disable 图 数 ,最 后 贡 
用 smp _ processor _ id 函数 获得 当前 正在 执行 软件 中 断 处 理沙 数 的 CPU。 
_ local _ bh _ disable 函数 将 增加 当前 进程 的 抢占 计数 为 SOFTIRQ _ OFFSET ,之 后 再 使 
用 softirq _ count 函数 判断 程序 是 否 运 行 在 软件 中 断 的 上 下 文中 ,返回 值 寿 为 1 表示 当前 程序 
运行 在 软件 中 断 的 上 下 文中 。 


restart: 
A/* Reset the pending bitmask before enabling irgs ¥* / 
set softirg_ pending(0); 


local _ irg _ enable( ); 
h = softirg _ vec; 


do | 
if (pending & 1) | 
h- >action(h); 
rcu _bh _ gsctr _ inc(cpu); 
| 
二 十， 
pending >> = 1; 
| while (pending); 


local _ irg_ disable( ): 
pending = local_ softiry _ pending( ); 
i (pending 必用 - -max _ restart) 


gOto restart: 


if (pending) 
wakeup _ softirgd( ) ; 
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以 上 这 上 段 程序 是 do__softirq 函数 的 重要 程序 段 。 其 执行 流程 如 下 : 

(1) 这 段 程序 首先 清除 当前 CPU 的 softirq 的 pending 位 ,以 便 Linux 系统 可 以 激活 其 他 
软件 中 断 , 然 后 使 能 外 部 中 断 。Linux 系统 在 软件 中 断 的 处 理 过 程 中 ,将 在 此 使 能 外 部 中 断 以 
提高 Linux 系统 的 响应 能 力 。 提 醒 读 者 注意 ,这 段 程序 必须 首先 清除 pending 位 ,然后 再 使 能 
外 部 中 断 ,以 避免 Linux 系统 死 锁 。 

(2) 从 softirq _ vec 数组 中 获得 软件 中 断 服务 队列 中 相应 的 Entry 并 存 人 到 临时 变量 h 
中 ,TASKLET _ SOFTIRQ 类 型 的 软件 中 断 的 操作 函数 为 tasklet _action ,而 HI _SOFTIRQ 
类 型 的 软件 中 断 的 操作 函数 为 tasklet _ hi_ action。 

因此 在 Linux 系统 中 .存在 未 处 理 的 TASKLET _ SOFTIRQ 类 型 的 软件 中 断 时 ,将 最 终 
调用 tasklet _ action 图 数 .tasklet _ action 函数 在 . /kernel/softirg.c 文件 中 定义 。 该 函数 将 依 
次 处 理 挂 接 在 per _cpu _ tasklet _vec 队列 中 的 软件 中 断 服务 例 程 。 

(3) 在 "do-while(pending) "循环 中 ,依次 处 理 所 有 未 处 理 的 软件 中 断 请 求 。 

(4) 然后 屏蔽 外 部 中 断 , 如 果 在 处 理 软件 中 断 服务 例 程 时 ,又 有 新 的 软件 中 断 产生 ,这 有 段 
程序 将 跳 转 到 restart 标签 处 ,重新 运行 。 产 生 这 种 情况 的 原因 是 由 于 在 这 段 程序 的 执行 过 程 
中 ,外 部 中 断 被 使 能 ,因此 这 段 程 序 有 可 能 被 外 部 中 断 打 断 , 从 而 产生 了 新 的 软件 中 断 请 求 。 

(5) 当 这 段 程序 已 经 运行 了 max _ restart 次 后 (在 Linux 系统 中 max _ restart 的 缺 省 值 为 
10) ,仍然 有 新 的 软件 中 断 产 生 时 ,启动 核心 进程 ksoftirqd 处 理 新 的 软件 中 断 请 求 , 而 不 继续 
在 _ do __softirq 函数 中 处 理 这 些 软 件 中 断 。 


trace softirg_ exit(): 


account _ system _ vtime(current); 
_local bh enable(); 
Pa nd a ed 


_ local _ bh _ enable 图 数 是 local _bh _ disable 函数 的 逆 过 程 ,该 函数 执行 完毕 后 ,当前 程 
厅 将 退出 软件 中 断 程序 的 上 下 文 。 _ do _ softirg 函数 结束 后 ,do _IRQ 函数 将 随 之 结束 。 此 
时 Linux 系统 的 外 部 中 断 处 理 程 序 将 执行 其 最 后 一 个 步骤 ,从 外 部 中 断 返回 。 外 部 中 断 的 返 
回 过 程 见 6.5 节 。 


6.4.5 工作 队列 Work Queue 


Linux 系统 还 提供 了 一 种 中 断 延 时 处 理 功能 , 即 工作 队列 Work Queue。Work Queue 与 软 
件 中 断 的 实现 思想 类 似 , 可 以 将 某 个 工作 推 后 执行 。 但 是 与 软 中 断 不 同 ,采用 工作 队列 机 制 可 
以 将 工作 延 时 并 交 给 一 个 核心 进程 来 执行 ,因此 在 工作 队列 中 允许 进程 进行 重新 调度 及 睡眠 。 
而 在 软件 中 断 中 ,不 能 够 进行 这 些 工作 ， 

在 系统 丽 计 中 ,可 以 自由 地 使 用 Work Queue 或 者 软 中 断 来 实现 中 断 的 延 时 处 理 。 如 果 
一 个 延 时 任务 在 执行 过 程 中 需要 睡眠 , 则 必须 选择 Work Queue 来 实现 ,如 果 一 个 延 时 任务 在 
执行 过 程 中 不 需要 睡眠 ,可 以 选择 软 中 断 来 实现 。Linux 系统 使 用 Work Queue 来 处 理 一 些 信 
号 机 制 ,操作 一 些 慢 速 的 MO 设备 。 

如 Linux PowerPC 采用 Work Queue 实现 MPC8360 处 理 器 千 兆 以 太 网 控制 器 的 Phy 中 
断 服务 例 程 ,这 有 段 程序 在 . /drivers/net/ucc geth.c 文件 中 。 

232 


在 使 用 Work Queue 之 前 ,首先 需要 将 Work Queue 中 的 数据 成 员 , 即 革 一 个 Work 进行 初 
始 化 。 在 这 个 驱动 程序 中 ,首先 在 ucc _ geth _ open 函数 调用 宏 INIT_ WORK 初始 化 一 个 
Work 一 一 ugeth _ phy _ change, 这 段 源 代码 如 下 : 


/A Set up the PHY change work gueue 关 / 
INIT_ WORK( &ugeth- > tq,ugeth_ phy _ change):; 


之 后 , 当 处 理 器 系统 出 现 Phy 中 断 时 ,将 在 中 断 服 务 例 程 phy _ interrupt 图 数 中 ,调用 
schedule ”work 函数 激活 工作 ugeth_ phy _ change, 之 后 ugeth _phy _ change 函数 可 以 继续 对 
Phy 中 断 进 行 处 理 , 但 是 Phy 中 断 的 服务 例 程 可 以 很 快 结束 。 这 段 源 代码 如 下 : 


static irqreturn _ t phy _ interrupt(int irg, void * dev _ id) 


| 


schedule work( &ugeth- > tq); 
return IRQ HANDLED; 
| 


在 这 段 代 码 中 ,可 以 发 现 ,由 于 Work Queue 的 引 人 , 千 兆 以 太 网 控制 如 Phy 中 断 的 服务 
例 程 十 分 简单 。 系 统 程序 员 在 编写 该 中 断 服务 例 程 时 ,将 处 理 该 中 断 的 主要 工作 放 在 ugeth _ 
phy _change 函数 中 ,可 极 大 程度 地 缩短 Phy 中 断 服务 例 程 在 中 断 上 下 文中 的 执行 时 间 , 从 而 
提高 Linux 系统 的 中 断 处 理 效率 。 
ugeth _phy _change 函数 的 源 代码 如 下 ,对 此 有 兴趣 的 读者 可 以 自行 分 析 。 
/# Scheduled by the phy _ interrupt/timer to handle PHY changes */ 
static void ugeth _pPhy _ change(struct work _ struct * work) 
| 
struct Ucc geth _ private * ugeth = 
container _ of(work,struct uce _Eeth private, tq); 
struct net device * dev = ugeth- > dev; 
struct Ucc _ geth * ug _ regs; 
int result = 0; 


ugeth_ vdbg( %s:IN’,_ FUNCTION _); 

ug_ regs = ugeth- >ug _ regs; 

/< Delay to give the PHY a chance to change the 
共 register state ¥/ 

msleep( 1); 

A Update the link,speed,duplex */ 


result = ugeth- >mii_ info->phyinfo->read _ status(ugeth->mii_ info); 
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7# Adjust the known status as long as the link 

* isn tstll coming up */ 
if ((0 == result) | (ugeth->mii_info->link == 0)) 
adjust _ link( dev); 


/A* Reenable interrupts,if needed */ 
i (ugeth->ug_ info->board flags & FSL UGETH BRD_HAS_PHY INTR) 
mii_ configure_ phy _inrerrupt(ugeth- >mii _ info, 
MII_ INTERRUPT ENABLED): 


1. keventd _ wgq 工作 线程 的 创建 

由 上 文 所 述 ,采用 工作 队列 机 制 , 可 以 把 工作 延 时 并 交 给 一 个 核心 进程 来 执行 。 其 中 这 个 
核心 进程 ,如 上 文中 的 ugeth _phy _ change, 是 由 keventd wg 工作 线程 创建 的 。 

在 Linux 系统 中 ,keventd _ wg 工作 线程 由 进程 1, 即 init 进程 初始 化 。init 进程 调用 de _ 
basic _ setup 一 之 init _ workqueues 图 数 初 始 化 系统 的 keventd _ wgq 工作 线程 。init workqueues 
杀 数 的 源 代码 如 下 ， 


void init _ workqueues(void) 

| 
singlethread _ cpu = first _cpufcpu possible_ map); 
hotcpu _ notifier(workqueue_ cpu _ callback, 0); 
keventd wgy = ereate workqueue( events ); 
BUG ON(! keventd_ wg); 

| 


init _ workqueues 函数 调用 create “workqueue 一 > create ”workgueue 国 数 创建 keventd 
_wq 工作 线程 。__ create _ workqueue 国 数 除了 缺 省 的 工作 线程 keventd _ wa 之 外 ,还 可 以 创 
建 目 定义 的 工作 线程 ,在 有 些 设 备 驱动 程序 中 ,还 可 以 使 用 create “workqueue 函数 创建 一 些 
自 定 义 的 工作 线程 。 但 是 在 大 多 数 情况 下 ,系统 用 户 没 有 建立 自 定义 工作 线程 的 必要 。 

__ Create _wWorkqueue 图 数 的 源 代 码 在 . /kernel/workqueue.c 文件 中 : 


struct Workqueue _ struct * __ create_ workqueue(const char * name, 
int singlethread ,int freezeable) 
| 
int cpu, destroy = 0; 
struct workqueue struct * wg; 
struct task _ struct *p; 


wg = kzalloc(sizeof( * wq),GFP_ KERNEL); 
i (1 waq) 
retum NULL: 


在 _ create _ workqueue 函数 中 ,首先 调用 kzalloc 函数 申请 工作 队列 使 用 的 空间 ,Linux 系 
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统 使 用 workqueue _ struct 结构 表示 一 个 工作 队列 ,该 结构 的 源 代 码 如 下 : 


struct workqueue _ struct | 
struct cpu _ workqueve _ struct * cpu_ wg; 
const char # name; 
struct list_ head list; /* Empry if single thread * / 
二 
该 结构 的 主要 数据 成 员 是 cpu workqueue struct 结构 。 在 Linux SMP 中 ,每 一 个 CPU 
都 有 自己 独立 的 cpu ”workqueue struct 结构 ,该 结构 用 来 记录 当前 Work Queue 的 状态 ， 
name 参数 用 来 记录 当前 工作 队列 的 名 称 。list 参数 将 多 个 workqueue _ struct 结构 连接 成 一 个 
链表 。 在 Linux SMP 系统 中 ,每 一 个 CPU 都 有 一 个 缺 省 的 工作 队列 ,这 些 工作 队列 通过 list 
参数 链接 在 一 起 ,并 使 用 全 局 指针 workqueues 指向 这 个 链表 的 首部 。 
__ create ”workqueue 函数 在 申请 工作 队列 使 用 的 空间 完毕 后 将 执行 以 下 程序 。 


wdq->cpul_wq = alloc _percpu(struct cpu _workqueue _ struct); 
让 (1 woq>cpu_ wq) ! 

kfree( wq); 

return NULL:; 
| 


wo->name = name; 


在 上 述 程 序 中 ,首先 调用 alloc _ percpu 函数 分 配 工作 队列 使 用 的 cpu _ workqueue _ struct 
结构 。 在 Linux SMP 中 ,需要 将 cpu workqueue _ struct 结构 存放 到 每 一 个 CPU 的 percpu _ 
data 中 ,因此 必须 使 用 alloc _ percpu 函数 申请 cpu workqueue _ struct 结构 所 用 的 空间 。 在 基 
于 单 处 理 器 的 Linux 系统 中 ,alloc_percpu 函数 等 效 于 kzalloc 函数 . 

之 后 这 段 程序 对 工作 队列 的 name 参数 赋值 。 

mutex _ lock{ &workgueue _ mutex): 
if (singlethread) | 
INIT_ LIST_ HEAD( &wq > list); 
p= ereate workqueue_ thread(wq,singlethread _ cpu. freezeable): 


让 (1 p) 
destroy = 1 ; 
else 
wake _ up _ process(p); 
| else | 


list _ add( &wq- > list, @&workgqueues); 
for_each_ online_ cpu(cpu) | 
p= create_ workqueue_ thread(wq,cpu, {reezeable); 
if (p) 1 
kthread _ bind(p, cpu); 
wake _ up _ process(p); 
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| else 
destroy = 1; 
| 
| 


mutex_ unlock( &workquevye_ mutex); 


当 singlethread 为 1 时 ,这 段 程序 将 使 用 create workqueue _ thread 函数 ,为 当前 工作 队列 
创建 一 个 核心 进程 ,然后 再 使 用 wake_ up _ process 函数 唤醒 此 核心 进程 ， 而 singlethread 为 0 
时 ,这 段 程序 为 Linux SMP 中 的 每 一 个 CPU 创建 一 个 核心 进程 ,并 将 这 个 核心 进程 与 当前 
CPU 绑 定 在 一 起 ,之 后 使 用 wake _ up process 唤醒 此 核心 进程 。 此 后 在 系统 中 的 每 一 /人 
CPU 都 有 一 个 核心 进程 处 理 这 个 工作 队列 


if (destroy) | 
destroy “workqueue( wq) ; 
wdg = NULL; 
return waq; 
| /# _ create_ workqueue */ 


如 采 create _ workqueue _ thread 函数 执行 失败 , 则 调用 destroy _ workqueue 函数 释放 这 个 
工作 队列 占用 的 所 有 资源 ,然后 进行 函数 返回 。 

在 create _ workqueue 函数 中 ,最 重要 的 函数 为 create workqueue _ thread 图 数 , 该 郴 数 
的 主要 作用 是 初始 化 每 一 个 工作 队列 使 用 的 cpu_workqueue _struct 结构 ,同时 创建 工作 队列 
使 用 的 核心 进程 。 该 函数 的 源 代码 如 下 : 


static struct task struct * create workqueue_ thread(struct workqueue_ struct * wg, 
int cpu, int freezeable) 
| 
struct cpu _ workqueue _ struct # cwq = per_cpu_ ptr(wg- >cpu_ wgq,cpu); 
struct task _ struct # Di 


spin_ lock _ init( &ewg- > lock); 

CWq->wq = wq; 

cwq-> thread = NULL.; 

Cwq- >insert _ sequence = 0; 

cwq- >remove Sequence = (0; 
cwd- > {reezeable = freezeable; 
INIT_LIST_ HEAD( &ecwa > worklist): 
init_ waitgueue _ head( &cwq >more_ work); 
init _ waitqueue “head( &cwd > work done); 


if (is_ single threadedf wa)) 
p= kthread _ create(worker _ thread,cwg, Ws ,wgq- >name); 
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else 
p= kthread create(worker _ thread,cwq, %s/%d ,wgq->name,cpu); 
if (IS_ ERR(Pp)) 
retum NULL; 
cwq- >thread = Pi 
return p; 


这 上 段 代码 使 用 kthread create 函数 创建 了 核心 进程 worker thread。worker thread 进 
程 用 来 处 理 Linux 系统 中 的 工作 队列 请 求 . 

2. 设备 驱动 程序 与 Work Queue 的 挂 接 

在 下 文中 ,我 们 还 将 以 MPC8360 处 理 器 干 兆 网 控制 器 的 Phy 中 断 服务 例 程 说 明 设 备 驱 
动 程序 如 何 与 Work Queue 进行 挂 接 。 提 醒 读 者 注意 ,MPC8360 处 理 器 的 这 个 千 兆 网 控制 器 
使 用 PQII Pro 世上 户 中 的 QE 实现 ,而 不 是 使 用 TSEC 控制 器 实现 。 

在 这 个 驱动 程序 中 ,首先 定义 一 个 work _ struct 结构 的 变量 tq, 该 变量 保存 在 设备 驱动 程 
序 的 私有 变量 ucc _ geth _ private 结构 中 ,用 来 表示 该 设备 驱动 程序 使 用 的 Work。ucc_ geth _ 
private 在 ucc _ geth _ probe 图 数 中 被 alloc _ etherdev 函数 初始 化 ， 


struct uce_ geth _ private | 


struct work _ struct tq; 
struct timer _ list phy info timer; 


| 
work struct 结构 用 来 描述 一 个 Work 的 属性 。 该 结构 的 源 代码 如 下 . 


struct work _ struct | 
atomic _ long _ t data; 
#define WORK_ STRUCT PENDINGO0 /x* T if work item pending execution */ 
#define WORK _ STRUCT_ NOAUTOREL 1 /* F if work item automatically released on exec */ 
#defme WORK STRUCT FLAG MASK (3UL) 
#define WORK_ STRUCT_ WQ_DATA MASK (~WORK_ STRUCT_FLAG MASK) 
struct list _ head entry; 
work_ func _ t func; 
下 
该 结构 有 3 个 参数 ,其 描述 如 下 : 
(1) data 参数 为 处 理 函 数 func 的 参数 ,该 参数 的 最 后 两 位 , 即 WORK _ STRUCT _ 
PENDING 和 WORK_ STRUCT _NOAUTOREL ,表示 当 前 Work 的 状态 。 
当 WORK _STRUCT_ PENDING 位 为 1 时 ,表示 当前 Work 正在 等 待 处 理 ; 而 WORK _ 
STRUCT _ NOAUTOREL 位 为 1 时 ,表示 当前 Work 在 处 理 结束 后 不 会 被 自动 释放 。 
(2) entry 参数 将 所 有 work _ struct 结构 组 成 一 个 链表 。 在 Linux 系统 中 ,每 一 个 CPU 为 
每 种 类 型 的 Work 维护 一 个 链表 。 当 与 此 Work 相对 应 的 工作 线程 被 唤醒 时 ,将 执行 这 些 链表 
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上 的 所 有 Work。 

(3) func 参数 用 来 保存 该 Work 所 对 应 的 处 理 图 数 。 

在 使 用 tq Work 之 前 , 千 兆 网 控制 器 的 驱动 程序 需要 使 用 在 ucc _ geth _ open 函数 中 使 用 
宏 INIT_ WORK 初始 化 tq Work, 如 上 文 所 示 。 

宏 INIT_ WORK 的 源 代码 如 下 : 


# define INIT_ WORK(_ work，func) 
do | 
(_ work)->data = (atomic_ long_t) WORK _ DATA _ INIT(0); 
INIT _LIST_ HEAD(&(_ work)-> entry); 
PREPARE _ WORK((_ work),(_ func)); 
| while (0) 


宏 INIT_ WORK 将 work _ struct 结构 的 data、entry 和 func 参数 分 别 赋值 。 在 uce _ 
geth.c 文件 中 ,tg 一 >func 参数 为 ugeth _ phy _ change 国 数 。 

宏 INIT_WORK 初始 化 tq 变量 后 ,ugeth _ phy _ change 国 数 将 作为 tq Work 的 人 处理 销 
数 。ugeth_ phy _ change 函数 被 Phy 中 断 服务 例 程 延 时 执行 ， 并 进一步 对 Phy 中 断 进 行 相应 
处 理 。 该 函数 运行 在 核心 进程 worker _ thread 的 上 下 文中 ,因此 该 函数 允许 被 外 部 中 断 ,并且 
没有 持 有 任何 锁 资 源 ,在 需要 的 时 候 , 该 函数 还 可 以 调用 睡眠 函数 。 

在 tq 变量 初始 化 完毕 后 ,设备 驱动 程序 可 以 使 用 schedule_ work 图 数 调度 这 个 Work ,也 
可 以 使 用 schedule _delayed ”work 函数 延 时 一 段 时 间 后 调度 这 个 Work。 在 大 多 数 情 况 下 ， 
shedule _ work 函数 和 shedule _ delayed _ work 函数 在 设备 驱动 程序 的 中 断 服务 例 程 中 使 用 。 
在 ucc _ geth.c 文件 中 ,Phy 中 断 服务 例 程 phy _ interrupt 函数 中 调用 schedule _ work 函数 激 
活 tq work。 

shedule ”work 函数 调用 gueue_ work 一 > queue _ work 函数 将 tq work 加 入 到 keventd _ 
wg 工作 线程 所 在 的 工作 队列 中 ,然后 激活 keventd _ wg 工作 线程 中 的 worker _ thread 进程 ， 
在 worker _ thread 进程 被 激活 后 ,将 会 处 理 tg Work。__ queue _work 函数 的 源 代码 如 下 : 


i 


static void __ queue _ work{struct cpu “workqueue _ struct * cwg, 
struct work _ struct * work) 
| 
unsigned long flags:; 


spin _ lock _irqsave( &cwq- > lock, flags) ; 
set _ wgq _data(t work, cwq); 
list _ add _ tail( 久 work- >entry, 必 cwq > worklist); 
cwq- > insert _ Sequence 十 十 
wake _ up( &cwq- > more_ work); 
spin _ unlock _ irqgrestore{ &cwq- > lock, {lags); 
| 


在 queue _ work 函数 中 “wake _up( 攻 cwq->>more work) 语句 将 激活 核心 进程 work- 
er _thread。 为 充分 理解 这 一 过 程 ,我 们 需要 理解 worker _ thread 进程 的 执行 过 程 。 
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3. 核心 进程 worker _ thread 

在 本 万 中 ,我 们 发 现 核心 进程 worker _ thread 在 keventd _ wg 工作 线程 初始 化 时 ,由 cre- 
ate _ workqueue 一 之 create ”workqgueue 国 数 创建 。 

核心 进程 worker _ thread 的 源 代码 在 . /kernel/workgueue.c 文件 中 ,其 源 代码 详解 如 下 : 


static int worker _ thread(void * __ cwg) 

| 
struct cpu _ workqueue _ struct # cwq = __ cwg; 
DECLARE _ WAITQUEUE( wait, current); 
struct k _ sigaction sa; 
sigset _ 1 blocked; 


让 【1 cwq- > {reezeable) 
current- > flags | = PF _ NOFREFZE:; 


set user nice(current, — 5); 


这 段 程序 首先 定义 一 个 等 待 事件 wait, 然 后 将 当前 进程 加 人 到 这 个 等 竺 事件 中 。 如 果 当 
前 工作 队列 的 freezeable 参数 为 0, 则 将 当前 进程 的 flags 参数 置 为 PF_NOFREEZE ,表示 当前 
进程 , 即 worker thread 进程 不 能 被 挂 起 ,之 后 将 worker _ thread 进程 的 静态 优先 权 设 置 为 
120-nice, 即 为 115。 


set _current _ state( TASK _ INTERRUPTIBLE):; 
while (1 kthread _ should _ stop()) | 
if (cwq- > freezeable) 
try _ to_ freeze( ); 


add wait gueue( 卜 cwq->more_ work, &wait); 
if (list _ empty( 态 cwg- > worklist)) 

schedulet ) ; 
else 

_ set_ current_ state(TASK _ RUNNING):; 


remcove wait queuel 太 cewq- 之 more_ work, 必 wait); 


ii (1 list_ empty( 上 &&cwg > worklist)) 
run_ workgueue(cwq); 
set_ current _ state(TASK _ INTERRUPTIBPLE); 
| 
set current state(TASK RUNNING); 
return 0; 


| 


这 段 程 序 是 核心 进程 worker _ thread 的 程序 主体 。 其 执行 顺序 如 下 : 
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(1) 首先 将 当前 进程 的 状态 设置 为 TASK _INTERRUPTIBLE. 

(2) 进入 while 循环 ,将 当前 进程 加 人 到 等 待 队列 cwq- >more _ work 中. 

(3) 如 果 当 前 Work Queue 为 空 , 当前 进程 调用 schedule 图 数 进 和 等待 状态 ,否则 当 责 进 
程 的 状态 被 重新 设置 为 TASK _RUNNING 状态 。 

在 Linux 系统 初始 化 时 , 当前 Work Queue 为 空 ,所 以 worker _ thread 函数 将 首先 执行 
schedule 函数 ,使 当前 进程 在 wait 队列 中 等 待 。 当 设备 驱动 程序 使 用 schedule _ work 销 数 激 
活 某 个 Work 时 ,将 调用 wake _up( 攻 cwq- >more work) 国 数 ,唤醒 在 cwq 一 >more work 队 
列 上 睡眠 的 进程 。 

(4) 当 worker _ thread 进程 被 唤醒 后 .首先 将 当前 进程 从 等 待 队 列 cwq 一 >more _work 中 
摘除 。 

(5) 如 果 当 前 Work Queue 不 为 空 , 则 调用 run workgueue 函数 处 理 当 前 Work Queue 中 
的 各 个 Work。 

(6) run _ workqueue 函数 执行 完毕 后 , 当前 进程 的 状态 被 设置 为 TASK _INTERRUPT- 
IBLE, 然 后 跳 转 回 while 循环 。 

run workqueue 函数 将 依次 处 理 在 当前 Work Queue 中 所 有 的 Work ,该 函数 的 核心 源 代 
人 码 如 下 所 示 。 


| 
static void run _ workqueue(struct cpu workqgueue _ struct * cwq) 


| 


while (1 list_ empty( &cwq- > worklist)) | 
struct work_ struct * work = list entry(cwq- > worklist. next, 
struct work _ struct, entry); 
work func_tf{ = work-> func; 


list_ del _ init(cwg- > worklist. next); 
spin_ unlock _ irgrestore{ &cwq- > lock, flags); 


BUG ON(get wq_data(work) ! = cwgq); 

让 (1 test_ hit(WORK STRUCT NOAUTOREL,work data _ bits(work))) 
work release( work); 

f( work); 

if (unlikely(in_ atomic() || lockdep _ depth( current) > 0)) | 

| 

spin _ lock _irqsave( &cwg- > lock, flags); 


CWO- > remove_ Sequence 十 十 ; 
wake _ up( 太 cwq- >>work done); 
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cwq- >run_ depth- -; 
spin_ unlock _ irgrestore( &ewo- > lock, flags); 
| 


这 有 段 程序 使 用 while 循环 ,遍历 当前 Work Queue 中 的 每 一 个 Work, 并 执行 Work 的 func 
国 数 , 最 后 调用 wake _ up 函数 唤醒 在 等 待 队 列 cwq- >work _ done 中 睡眠 的 进程 。 

在 Linux 系统 中 除了 可 以 使 用 schedule work 函数 和 schedule _ delayed work 函数 对 
Work 进行 调度 之 外 ,还 支持 一 个 特殊 的 Work 调度 函数 flush _ scheduled work。 该 函数 需要 
等 得 当前 Work Queueu 中 的 前 一 个 Work 执行 完毕 后 才能 执行 。 如 果 读 者 充分 理解 了 以 上 
Work Queue 的 全 部 内 容 ,那么 理解 flush _ scheduled work 饵 数 是 水 到 渠 成 的 ,本 书 不 再 介绍 
这 个 图 数 , 读 者 可 以 目 行 阅 读 这 个 溯 数 的 源 代码 ,作为 练习 ， 


6.5 外 部 中 断 的 返回 


do _ IRQ 函数 返回 时 ,并 不 结束 外 部 中 断 处 理 , 而 是 调用 ret _from _ except 函数 进行 外 部 
中 断 返 回 。 在 Linux PowerPC 外 部 中 断 进行 返回 时 ,需要 对 被 中 断 进程 的 状态 进行 判断 ,然后 
决定 是 返回 被 中 断 进 程 处 继续 执行 ,还 是 执行 其 他 优先 权 更 高 的 进程 。 基 于 E500 内 核 的 
Linux PowerPC, 外 部 中 断 返 回 函数 ret _ {from _ except 在 ./arch/powerpc/kernel/entry _ 32.S 
文件 中 。ret _ from _ except 函数 将 完成 外 部 中 断 的 恢复 ,该 函数 根据 被 中 断 程序 是 来 自 Linux 
PowerPC 内 核 , 还 是 应 用 程序 , 当前 Linux PowerPC 是 否 支 持 抢 占 式 内 核 (preemption), 其 执 
行 过 程 有 些 不 同 。 该 函数 执行 的 流程 如 图 6-3 所 示 。 


ret 1rom except | 


被 中 断 进程 在 








N 由 
核心 空间 运行 
Y 2 人 N N Y 
调度 条 件 允 许 调度 条 件 允 许 
Preemipt schedule_ irq 


restore 


图 6-3 ret _ from except 函数 的 处 理 流 程 
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由 图 6-3 可 知 ,在 Linux PowerPC 中 .从 应 用 进程 进入 到 中 断 状态 ,完成 中 断 处 理 、 进 行 中 
断 返 回 时 ,中 断 程 序 并 不 一 定 返 回 到 该 应 用 程序 ,而 是 调用 schedule 国 数 选择 最 适合 的 进程 进 
行 运行 ;从 核心 态 进 入 中 断 程序 后 ,进程 中 断 返 回 时 ,将 根据 当前 内 核 是 否 支 持 抢 占 式 内 核 决 
定 返回 到 哪里 执行 。 

如 果 Linux PowerPC 不 支持 内 核 抢 占 ,中断 将 返回 到 Linux PowerPC 核心 ,继续 执行 被 中 
断 的 进程 ;如 果 Linux PowerPC 支持 抢占 式 内 核 , 则 根据 被 中 断 进程 的 状态 决定 是 否 调 用 
schedule 图 数 进行 进程 调度 。 

Linux PowerPC 使 用 汇编 语言 实现 ret _ from _ except 国 数 , 其 源 代 三 详解 如 下 


A ret _ from _ except 鲁 数 源 代 码 片段 1 */ 
.globl ret from _ except 
ret from _ except: 
AZx Hard-disable interrupts so that current _ thread _ info()-> flags 
* can t change between when we test it and when we return 
* from the interrupt. */ 
LOAD_ MSR KERNEL(rI0,MSR KERNEL) 
SYNC  /* Some chip revs have problems here... */ 
MTMSRD(rIO) 7 * disable interrupts ¥ / 


lwz r3,_ MSR(r1) /x Returning to user mode? */ 
andi. .713,MSR _ PR 
beq resume kernel 


User _exc _ returm: /xx TL0 contains MSR KERNEL here */ 


这 段 程序 的 执行 流程 如 下 : 

(1) 调用 LOAD _MSR _KERNEL 宏 将 r10 赋值 为 MSR _KERNEL, 在 E500 内 核 中 ， 
MSR KERNEL 为 MSR ME|MSR _RIIMSR CE, 即 使 能 Machine Check 中 断 和 Critical 
Interrupt, E500 内 核 不 文 持 RI 位 。 

(2) 这 段 程序 将 寄存 器 rl0 的 值 存 放 到 E500 内 核 的 MSR 寄存 器 中 ,此 时 MSR 寄存 器 中 
的 许多 位 将 被 屏蔽 ,包括 EE 位 .DS 位 和 IS 位 等 。 

(3) 将 存放 在 中 断 堆栈 中 的 MSR 寄存 器 赋值 到 r3 寄存 器 中 ,并 根据 寄存 器 r3 的 但 判 断 
被 中 断 的 进程 是 运行 在 Linux 核心 空间 还 是 用 户 空间 。 如 果 PR 位 为 1 表示 被 中 断 的 进程 运 
行 在 Linux 用 户 空间 ,否则 表示 被 中 断 的 进程 运行 在 Linux 核心 空间 。 

(4) 如 果 此 进程 运行 在 核心 空间 , 则 调用 resume ”kernel 函数 ,否则 调用 user exc _ re- 
turn 函数 。 


6.5.1 被 中 断 进程 运行 在 核心 空间 


当 被 中 断 进 程 运 行 在 核心 空间 时 ,将 执行 resume kernel 函数 。 此 时 ,Linux PowerPC 将 
根据 当前 Linux 内 核 是 否 使 能 内 核 抢占 ,分 别处 理 。 如果 Linux PowerPC 不 使 能 内 核 抢 占 ， 
Linux PowerPC 在 中 断 返 回 后 ,将 返回 到 被 中 断 进程 继续 执行 ;否则 有 可 能 执行 比 被 中 断 进程 
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优先 级 别 高 的 进程 。 
resume _ kernel 函数 源 代 码 详 解 如 下 


/A# ret {from except 畏 数 源 代 码 片 段 2 */ 
#ifdef CONFIG PREEMPT 
b restore 


《xx N.B. the only way to get here is from the beq following ret_ from_ except. */ 
resume kernel: 
A¥# check current thread _ info->preempt count */ 
Hwinm 19,71,0,0,(31-THREAD _ SHIFT) 
lwz 0, TI_ PREEMPT(1) 
cmpwi0,r0,0 /¥% id non-zero, just restore regs and return */ 
bne restore 
lwz 10,TI_ FLAGS(19) 
andi. .0,_ TIF_ NEED RESCHED 
beq+ restore 
andi. wD,r3, MSR EE /* interrupts off? */ 
beq restore /sx don't schedule i{ so */ 
i et eadld eo 

如 果 Linux PowerPC 使 能 内 核 抢占 ,将 执行 以 下 代码 ， 

(1) 从 寄存 器 rl 获得 被 中 断 进程 的 thread _ info 的 指针 (由 上 文 可 知 ,进程 的 thread info 
与 进程 的 核心 堆栈 共享 一 个 8KB 大 小 的 空间 ,thread _info 的 内 容 存放 在 8KB 空间 的 开始 部 
分 ) ,并 将 此 指针 放 人 区 寄存 器 中 。 

(2) 对 thread _ info- > preempt _ count 参数 进行 判断 ,如 果 preempt _ count 参数 不 为 0, 则 
表示 当前 进程 不 可 被 抢占 。 此 时 调用 restore 函数 恢复 被 中 断 进程 的 现场 空间 ;如 果 此 参数 为 
0 ,表示 该 进程 可 以 被 抢占 ,继续 执行 。 

(3) 对 thread _info- >flags 参数 进行 判断 ,如 果 flags 参数 中 的 _TIF _NEED _ RESCHED 
位 不 为 1, 即 当 前 进程 不 需要 进行 调度 时 ,将 调用 restore 函数 恢复 被 中 断 进程 的 现场 空间 ; 否 
则 继续 执行 。 

(4) 判断 寄存 器 r3(r3 保存 着 中 断 堆 栈 中 的 MSR 寄存 器 , 即 进 入 中 断 处 理 程 序 之 前 MSR 
寄存 器 的 值 ) 中 的 EE 位 是 否 为 1, 即 外 部 中 断 是 否 使 能 。 如 果 没 有 使 能 外 部 中 断 , 则 调用 re- 
store 函数 恢复 被 中 断 进程 的 现场 空间 ,否则 执行 preempt _ schedule _ irg 函数 。 

在 Linux PowerPC 中 ,有 些 异 常 处 理 程序 ,如 缺 页 异常 ,系统 调用 等 也 调用 了 ret _ from _ 
except 畏 数 进行 异常 返回 。 这 些 异常 处 理 结束 后 需要 立即 返回 ,因此 在 此 ,需要 判断 EE 位 是 
否 使 能 。 在 缺 页 异常 和 系统 调用 中 ,MSR 寄存 器 的 EE 位 一 定 为 0, 因此 在 这 些 异常 的 处 理 程 
序 中 调用 ret _ from _ except 函数 时 ,需要 对 EE 位 进行 判断 ， 

(5) preempt _ schedule _ irg 国 数 的 源 代码 在 . /kernel/sched.c 文件 中 。 在 发 生 内 核 抢 占 
时 ,该 函数 将 调用 schedule 函数 进行 进程 调度 ,使 优先 权 较 高 的 进程 获得 CPU 资源 。 本 书 不 
再 详细 描述 该 函数 的 实现 过 程 。 

preempt _ schedule _ irg 图 数 执行 完毕 后 ,Linux PowerPC 将 执行 以 下 代码 : 
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Zx tet _ from except 函数 源 代码 片段 3 * / 
rwinm 3,r1,0.0,(31-THREAD _ SHIFT) 
lwz 13,TI_ FLAGS(9) 
andi. 0,r3,_ TIF_NEED RESCHED 
bne- {Ib 
A¥* interrupts are hard-disabled at this point ¥* / 

restore: 


这 里 提醒 读者 注意 ,preempt _schedule _ irg 函数 执行 schedule 函数 进行 进程 调度 ,在 一 个 
Linux PowerPC 系统 中 ,也 许 在 很 长 时 间 之 后 , 才 可 能 执行 以 上 源 代码 。 

这 段 代码 首先 从 中 断 堆 栈 中 获得 被 中 渐进 程 的 thread _ info 指针 ,并 将 此 值 放 入 到 寄存 融 
r9 中 ,之 后 判断 thread _ info 一 之 flag 的 TIF_ NEED RESCHED 位 是 否 为 1。 如 有 条 为 1 需要 
继续 幸 用 Preempt _ schedule _ 1rg 函数 进行 调度 ， 否则 调用 restore 国 数 。 restore 轴 数 的 详细 解 
释 如 下 所 示 : 


A#% ret from except 消 数 源 代码 片段 4 */ 
/A¥ interrupts are hard-disabled at this point * / 
restore: 
lwz 只 ,GPRO(rl) 
lwz ,GPR2(r1) 
REST _ 4GPRS(3,rl) 
REST _ 2GPRS(7,r1) 


jwz r10, XER(rI) 

lwz rll, CTR(r1) 
mtspr SPRN XER,r10 
mrtetr rll 


PPC405 _ ERR77(0,71) 


stwex. 10,0,rl f# 1 Clear the reservation *¥* / 


lwz rll,_ LINK(r1) 

mtlr r11 

lwz r10, CCR(r1) 

mterf Oxff ,ri0 

REST _ 2GPRS(9 ,rl) 

.globl exc exit _ restart 
EXC _ exit _ Testart: 

lwz rl1,_ NIP(71) 

lwz rl12, MSR(r1) 


这 段 程序 的 主要 作用 是 恢复 E500 内 核 的 通用 寄存 器 .XER CTR 、XER 、LKE 寄存 器 等 ,并 
清除 Reserve 位 。 


264 


A# ret from except 图 数 源 代 码 片 段 $ */ 
exc emt start: 
mtspr SPRN _SRR0,rll 
mtspr SPRN SRR1,rl2 
REST_2CPRS(11 ,zl ) 
lwz rt,GPRI(rl) 
.Elobl exc exit_ restart _end 
exXC exit _ restart_ end: 
PPC405 ERR77_ SYNC 
fi 
b. /As# prevent prefetch past rfi * / 


这 段 程序 将 保存 在 中 断 堆 栈 中 的 寄存 器 SRRO 和 SRRI1 恢复 ,并 调用 rfi 指令 最 终 退 出 外 
部 中 断 处 理 , 完 成 整个 外 部 中 断 处 理 程序 。 这 里 有 两 个 问题 值得 注意 : 

(1) rfi 指令 的 执行 分 为 两 个 步骤 ,一 是 将 SRR1 寄存 器 中 的 值 分 别 存 放 到 MSR 寄存 器 
中 :二 是 将 程序 调转 到 SRR0 寄存 器 指定 的 位 置 处 运行 ,同时 进行 指令 同步 。 

在 Linux 系统 中 , 跳 转 指令 无 法 替代 rfi 指令 ,因为 跳 转 指令 无 法 实现 在 跳 转 的 同时 进行 
指令 同步 。 在 目前 的 E500 内 核 版 本 中 ,如 果 用 户 改 变 MSR 寄存 大 的 IS 位 时 ,必须 首先 使 用 
rfi 指令 将 SRR1 寄存 器 的 值 存放 到 MSR 寄存 上 器。 这 是 因为 在 当前 E500 内 核 中 有 一 个 Bug。 
如 果 程 序 员 使 用 mtspr 指令 改写 MSR 寄存 器 的 JS 位 ,在 指令 Cache 中 有 可 能 产生 一 个 重复 
的 Cache 行 。 详 情 请 参考 MPC85XX 勘误 表 中 的 “CPU29"”。 

(2) rfi 指令 后 “b. "指令 的 作用 。 在 Linux PowerPC 中 ,rfi 指令 后 一 般 会 紧 跟 一 个 b。. 指 
令 。 这 条 指令 将 防止 由 于 E500 内 核 的 指令 预 取 而 导致 的 一 些 不 可 预料 的 错误 。 

在 绝 大 多 数 情 况 下 ,这 种 情况 不 会 发 生 ,因为 rfi 指令 一 般 在 “b. "指令 之 前 执行 ,而 xfi 指 
令 执 行 完 毕 后 将 进行 指令 同步 ,清空 所 有 预 取 的 指令 后 ,进行 跳 转 。 

但 是 在 某 些 情况 下 (发 生 这 种 情况 的 概率 微乎其微 ,在 一 个 正常 的 处 理 过 程 中 ,也 许 根本 
不 会 发 生 这 种 情况 ),“b. "指令 先 于 rfi 指令 执行 。 如 果 我 们 假设 rfi 指令 后 面 的 指令 不 是 “b.” 
指令 ,而 是 其 他 指令 如 "lwz ,GPRO(r1)", 此 时 在 xfi 指令 进行 跳 转 之 前 ,寄存 器 0 的 值 将 
被 更 改 , 从 而 影响 程序 的 正常 运行 。 而 “b. "指令 即使 被 执行 ,也 不 会 对 程序 的 正常 运行 带 来 
影响 。 

把 “b. "指令 替换 为 “nop" 指 令 也 是 一 种 选择 。 但 是 由 于 不 同 的 处 理 帮 内 核 其 指令 预 取 部 
件 的 缓冲 并 不 相同 ,因此 程序 员 很 难 确定 在 rfi 指令 后 ,需要 增加 多 少 个 “nop "指令 。 而 采用 
“b. 指令 可 以 合理 地 解决 这 一 问题 。 执行 “b. "指令 时 ,将 根据 跳 转 指令 的 目标 地 址 进行 程序 
预 取 ,而 在 跳 转 指 令 “b. "的 目标 地 址 ( 即 当前 地 址 ) 中 ,包含 的 指令 依然 为 “b.” 指 令 。 因 此 在 
rfi 指令 后 , 仅 需 要 紧 跟 一 条 “b. "指令 就 足够 了 。 


6.5.2 ”被 中 断 进 程 运行 在 用 户 空间 
当 被 中 断 进程 运行 在 用 户 空间 时 ,外 部 中 世 处 理 程序 将 调用 user _exc _ return 图 数 ,该 图 
数 的 详细 说 明 如 下 : 
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AX¥ ret _ from except 函数 源 代 码 片 段 6 * / 

User exc _Teturn: 7 x# Tl0 contains MSR KERNEL here # 
A/¥ Check current_ thread info()->flags */ 
rwinm rm,rl,0.0,(31-THREAD _ SHIFT) 
lwz 中 ,FIL_ FLAGS(7Y9) 


andi. ,09,(_ TIF SIGPENDING| TIF_ RESTORE SIGMASK| TIF_ NEED RESCHED) 
bne do_ work 


restore _ USer: 
Iwz 只 ,THREAD+ THREAD DBCRO(r2) 
andis. rl0,10,DBCRO _ IC@h 
bnel- load _ dber0 


b restore 
这 段 程序 首先 获得 被 中 断 进 程 thread _info 指针 ,之 后 判断 当前 进程 是 否 需 要 重新 调度 及 
当前 进程 中 是 否 有 未 处 理 的 信号 事件 。 如 果 有 , 则 调用 do _ work 函数 ,否则 调用 restore 函数 
完成 外 部 中 断 的 处 理 。 本 书 将 不 对 Linux PowerPC 的 信和 号 机 制 进行 讨论 。 
do _ work 图 数 的 处 理 流 程 如 图 6-4 所 示 。 









由 于 进程 通信 而 


NN 于 
“、 调用 do_ 人 fr 让 函数 
7 
| 


图 6-4 do_ work 国 数 的 处 理 流 程 


do _ work 函数 源 代码 的 实现 细节 与 resume _ kernel 函数 较为 相似 ,本 书 对 此 不 再 叙述 
布 望 谈 者 可 以 对 照 以 上 流程 图 自行 阅读 这 段 代码 ,以 充分 地 理解 Linux PowerPC 外 部 中 断 返 
回 处 理 的 所 有 细节 。 


6.6 Linux PPC 中 的 OpenPIC 中 断 处 理 程序 


Linux PPC 没有 使 用 MPIC 中 断 处 理 程序 ,而 是 使 用 OpenPIC 中 断 处 理 程序 。 本 文 将 简 
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单 介绍 OpenPIC 中 断 处 理 程序 中 的 主要 数据 结构 与 操作 函数 ,并 不 会 对 此 进行 详细 分 析 , 因 
为 这 部 分 代码 与 MPIC 中 断 处 理 程序 相 比 ,较为 简单 ， 在 Linux PPC 中 ,设置 了 许多 数据 结 
构 ,以 及 基于 这 些 数 据 结构 的 操作 图 数 ,支持 Linux PPC 中 的 OpenPIC 构架 。 


6.6.1 OpenPIC 中 断 处 理 程序 的 主要 数据 结构 


OpenPIC 中 断 处 理 程序 的 主要 数据 结构 在 . /arch/ppc/syslib/open _ pic _ defs.h 文件 中 . 
在 OpenPIC 中 断 控制 器 中 ,寄存 器 使 用 128 位 对 界 , 以 方便 地 支持 32 位 .64 位 及 128 位 处 理 
丛 。Linux PowerPC 使 用 以 下 结构 对 OpenPIC 中 的 寄存 妖 进 行 定 义 以 确保 这 些 寄存 右 128 位 
对 秀 : 


typedef struct _OpenPIC Reg | 
u_ int Reg; 
char Padl Qxe |; 

| OpenPIC_ Reg; 


在 OpenPIC 中 断 控制 器 中 .包含 以 下 3 类 寄存 器 组 : 

(1) Global Register。 此 组 寄存 器 描述 OpenPIC 中 断 控 制 器 的 公用 信息 。 

(2) Interrupt Source Configuration Register。 此 组 寄存 器 描述 OpenPIC 中 断 控 制 髓 的 中 
断 源 - 在 OpenPIC 构架 中 ,最 多 支持 2048 个 中 断 源 。 

(3) Per Processor Register。 此 组 寄存 希 描 述 OpenPIC 构 染 中 的 多 个 CPU。 在 OpenPIC 
构架 最 多 文 持 32 个 CPU。 

在 Linux PPC 中 使 用 OpenPIC 结构 描述 这 些 寄存 器 。OpenPIC 结构 如 下 所 示 。 


struct OpenPIC | 
char Pad1| 0x1000 |); 
OpenPIC _ (Global Global; 
OpenPIC _ Source Source[ OPENPIC_ MAX _ SOURCES}]; 
OpenPIC_ Processor Processor[ OPENPIC MAX PROCESSORS|; 
1 
在 OpenPIC 结构 的 开始 处 ,使 用 了 Padl 数据 成 员 , 将 最 开始 的 0x1000 个 字 市 保留 。 在 
OpenPIC 控制 器 中 , 刚 开 始 的 0x1000 字 节 为 OpenPIC _ Processor 数据 结构 描述 的 寄存 器 ,但 
是 这 些 寄存 器 被 称 为 OpenPIC 控制 器 的 私有 寄存 器 ,只 能 由 处 理 左 内 部 使 用 ,而 不 能 由 用 户 
通过 指令 进行 访问 ， 
OpenPIC ”Global 结构 包含 了 许多 与 OpenPIC 中 断 控 制 器 设置 有 关 的 寄存 器 以 及 和 和 定时 
语 有 天 的 寄存 向。OpenPIC _ Global 结构 的 定义 如 下 : 


typedef struct _ OpenPIC _ Global | 
OpenPIC Reg _ Feature Reportingl; 
OpenPIC_ Reg _ Feature_ Reportingl; 


OpenPIC _ Reg _ Global _ Configuration0 ; 
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OpenPIC_ Reg _ Global _Configurationli 

OpenPIC_ Reg _ Vendor _ Specific[ 4]; 

OpenPIC_ Reg _ Wendor _ [dentification; 

OpenPIC _ Reg _ Processor _ Initialization; 

OpenPIC_ Reg _ IPI _ Vector _ Priority| OPENPIC _ NUM _ IP1]; 
OpenPIC _ Reg _ Spurious _ Vector; 


OpenPIC_ Reg _ Timer_ Frequency; 
OpenPIC _ Timer Timer[ OPENPIC _ NUM _ TIMERS]; 
char Pad1[Oxee00 ); 

| OpenPIC_ Global; 


在 单 处 理 器 系统 中 ,OpenPIC _ Global 结构 中 较 重 要 的 参数 如 下 : 

@ _ Feature “Reporting0 参数 包含 当前 OpenPIC 的 版 本 号 ,包括 当前 OpenPIC 中 一 共 支 
持 多 少 个 CPU ,一 共 文 持 多 少 个 中 断 源 等 一 系列 信息 。 

e 在 _ Global _ Configuration0 参数 中 ,有 两 个 重要 的 位 RR 和 P。 对 RR 位 写 1 时 ,将 复位 
OpenPIC 中 断 控制 副 。P 位 为 0 时 表示 支持 8259 中 断 控 制 项 的 Pass Through 方式 
(8259 是 一 个 备用 的 中 断 控制 条 ), 此 时 OpenPIC 将 工作 在 Pass Through 方式 下 ,在 这 
种 工作 方式 下 ,OpenPIC 将 所 有 自己 管理 的 中 断 通 过 IRQ_OUT#3 引 肢 输 出 到 8259 中 
类 控制 右 中 ,然后 由 8259 统一 管理 所 有 的 中 断 源 。 目 前 在 移入 式 系统 或 者 服务 器 系统 
中 ,很 少 使 用 这 种 方式 设计 中 断 系 统 。 

@ OpenPIC V1.3 版 本 支持 ” Global ”Configurationl 参数 。Linux PPC 没有 使 用 这 个 参 
数 。IBM 的 MPIC 中 断 控 制 器 基于 OpenPIC V1.2 版 本 ,因此 在 MPIC 中 断 控制 器 中 ， 
也 没有 使 用 这 个 寄 和 存盘 。 

@ Processor Initialization 参数 支持 一 个 处 理 器 对 多 个 CPU 的 复位 操作 。 但 是 在 Linux 
PowerPC 中 ,没有 使 用 此 参数 进行 多 CPU 系统 的 引导 。Linux 源 代码 的 维护 者 似乎 很 
不 喜欢 使 用 与 其 他 体系 结构 不 兼容 的 方式 用 来 实现 某 种 操作 ,即使 有 些 方式 对 于 某 种 
体系 结构 的 处 理 器 十 分 有 用 。 

OpenPIC _ Global 数据 结构 中 的 其 他 参数 在 Linux PowerPC 中 ,或 者 没有 实现 ,或 者 只 对 

多 处 理 器 结构 有 效 ,本 文 不 对 此 一 一 叙述 。 
在 OpenPIC 结构 中 , 共 定 义 了 2048 个 OpenPIC Source 数据 成 员 。 这 些 数据 成 员 用 来 对 
2048 个 Interrupt Source Registers 进行 描述 ,其 结构 如 下 所 示 : 
typedef struct _ OpenPIC. Source | 
OpenPIC _ Reg Vector Priority; A¥ Read/Write */ 
OpenPlC._ Reg _ Destination: /¥ Read/Write * / 
| OpenPIC _ Source, * OpenPIC _ SourcePtr; 
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9 “Vector _ Priority 参数 识别 OpenPIC 中 断 控制 器 管理 的 中 断 源 ,及 其 优先 权 和 中 断 触 
发 方式 ( 电 平 触发 或 者 边沿 触发 )。 
@ _ Destination 参数 表示 该 中 断 由 OpenPIC 中 断 控制 器 中 的 哪个 CPU 处 理 
在 OpenPIC 结构 中 ,还 定义 了 32 个 OpenPIC _ Processor 结构 ,该 结构 用 来 描述 OpenPIC 
中 断 控 制 器 支持 的 CPU。 这 组 寄存 器 包含 一 些 通 用 的 寄存 器 和 多 处 理 器 系统 用 于 中 断交 互 
的 寄存 秦 。 


typedef struct _OpenPIC “Processor | 


u_ int IPIO Dispatch_ Shadow: /A Write Only */ 
char Padl| Ox4 |; 

u_ int IPIO_ Vector_ Priority_ Shadow:; A¥ Read/Write * / 
char Pad2| 0x34 |; 

OpenPIC Reg _ IPI_ Dispatch| OPENPIC_ NUM _ IPI]; /x Write Only */ 
OpenPIC _ Reg _ Current_ Task _ Priority:; /as Read/Write * / 
Char Pad3[ 0x10 |; 

OpenPIC _ Reg _ Intermupt_ Acknowledge; /¥ Read Only */ 
OpenPIC _ Reg _ EON; F# Read/Write */ 
char Pad5[0xf40] ; 


| OpenPIC _ Processor; 


在 单 处 理 器 系统 中 ,OpenPIC _ Processor 数据 结构 中 较为 重要 的 参数 如 下 所 示 : 

@ Current Task Priority 参数 。 该 参数 用 来 描述 Current Task Priority 寄存 项。 此 寄 
存 器 的 低 4 位 有 效 , 可 以 表示 16 个 当前 进程 的 优先 级 。OpenPIC 规定 只 有 当中 断 的 优 
先 级 大 于 当前 进程 的 优先 级 时 中 断 才 有 可 能 传递 到 处 理 希 。 当 前 的 Linux 系统 还 使 用 
此 参数 实现 当前 进程 的 优先 级 。 

@ Interrupt _ Acknowledge 参数 。 该 参数 存放 中 断 响 应 寄存 器 (Interrupt Acknowledge 
Register) , 该 寄存 器 存放 着 当前 待 处 理 中 断 优先 权 最 高 的 外 部 中 断 号 。Linux PPC 使 
用 openpic _ irg 了 销 数 读 取 中 汤 响 应 寄存 器 ,以 获得 当前 外 部 中 断 号 。 

@ FOI 参数 。 该 参数 存放 中 断 结 束 寄 存 器 EOI(End of Interrupt Register)。 对 该 寄存 器 
进行 写 操 作 时 ,优先 权 最 高 的 外 部 中 断 被 处 理 完毕 。Linux PPC 使 用 openpic _ end _ irq 
函数 或 者 openpic _ ack _ irq 国 数 对 该 寄存 器 进行 写 操作 ,结束 当前 外 部 中 断 : 


6.6.2 ”OpenPIC 中 上 断 处 理 程序 的 主要 变量 与 操作 困 数 


在 OpenPIC 中 断 处 理 程序 中 ,主要 的 变量 有 OpenPIC .OpenPIC “NumInitSenses .Open- 
PIC _ InitSenses, NumProcessorsNumSoureces ,open _ pic _ irg _ offset 与 ISR ,如 表 6-4 所 示 。 


表 6-4 ”OpenPIC 中 断 处理 程 序 的 主要 变量 












变量 名 属 隆 | 描 述 
OpenPIC | volatile so OpanPIC iomem 六 OpenPIC 寄存 器 基 址 的 虚拟 地 址 
| ”保存 处 理 器 内 部 所 有 外 部 中 断 的 触发 方式 
oe Kali | Ts Si ”以 上 描述 符 表 的 大 小 





i A 
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( 续 ) 


NumProcessors OpenPIC 支持 的 CPU 个 数 

NumSources OpenPIC 支持 的 外 部 中 斯 个 数 

open_pic_irq_offset 为 8259 中 断 控制 器 预 贸 

[SR ISR 指向 在 OpenPIC 中 , 有效 中 断 的 个 数 。 
OpenPIC 支持 2048 个 中 断 。 


除了 表 6-4 所 示 变 量 之 外 ,OpenPIC 中 断 处 理 程序 还 设置 了 open _ pic _irq _ offset 变量 ， 
该 变量 的 设置 目的 是 为 了 给 8259 中 断 控 制 器 预 留 中 断 号 。 
Linux PPC 将 0 一 open _ pic _irq _ offset 之 间 的 中 断 号 预 留 给 8259 控制 器 。OpenPIC 中 
断 控制 此 可 以 支持 2048 个 中 断 ,但 是 一 个 处 理 器 系统 中 一 般 不 会 需要 这 么 多 的 中 断 。 在 Lin- 
ux PPC 中 ,可 以 使 用 OpenPIC _ Source 结构 中 的 _ Vector _ Priority 参数 动态 地 调整 中 断 号 。 
在 使 用 8259 这 种 低级 中 断 控 制 器 对 外 部 中 断 进 行 管理 时 ,外 部 中 断 号 只 能 从 0 开始 递增 。 因 
此 Linux PPC 中 设立 了 open _ pic _ irg _ offset 变量 ,将 0 一 open_ pic irg _ offset 之 间 的 中 断 
号 预 留 给 8259 中 断 控制 器 。 
在 OpenPIC 中 断 处 理 程 序 中 , 主要 函数 有 openpic _ enable _irq、openpic _ disable _irq、 
openpic _ack _ irq、openpic _end _irq 和 openpic set _affinity。 这 些 图 数 如 表 6-5 所 示 。 
表 6-5 ”OpenPIC 中 断 处 理 程序 的 主要 函数 
一 数 名 描述 
openpic _ enable _ irq 通过 _ Vector _ Priority 参数 将 OpenPIC 控制 器 指定 的 中 断 使 能 
openpic _ disable _irq 通过 _Vector _ Priority 参数 将 OpenPIC 控制 器 指定 的 中 斯 禁止 


OpenPIC 的 中 斯 啊 应 函数 。 如 果 指 定 中 断 采 用 电 平 触发 方式 ,此 函数 无 意义 ,如 果 采 用 
边沿 触发 方式 ,此 函数 可 以 对 EOI 寄存 器 进行 写 操 作 ,结束 当前 中 斯 处 理 

OpenPIC 的 中 断 结 束 函 数 ,如 果 指 定 中 断 采用 边沿 触发 方式 ,此 函数 无 意义 ,如 果 采 用 电 
平 触发 方式 ,此 函数 将 对 EOI 寄存 器 进行 写 操作 ,结束 当前 中 鞭 处 理 

设置 外 部 中 断 的 亲 和 性 。 在 Linux SMP 结构 中 ,可 以 使 用 该 函数 确定 由 哪个 处 理 器 处 理 
该 外 部 中 断 


openpic _ack _irq 
openpic _end _irq 


openpic _ set _ affinity 


在 OpenPIC 结构 中 ,还 定义 了 一 些 OpenPIC 结构 初始 化 和 如 何 利 用 OpenPIC 结构 进行 
中 断 处 理 的 函数 。Linux PPC 使 用 OpenPIC 中 断 处 理 程序 进行 外 部 中 断 系 统 初始 化 时 ,会 调 
用 一 个 重要 的 函数 openpic _init, 此 函数 将 逐个 对 OpenPIC 中 断 控制 器 的 相关 寄存 器 初始 化 
并 对 irq _ desc 结构 进行 初始 化 。 本 书 对 OpenPIC 中 断 处 理 程序 不 再 作 详 细 的 介绍 。 在 不 久 
的 将 来 ,有 关 OpenPIC 中 断 处 理 程序 的 源 代码 可 能 会 被 彻底 移 除 。 


6.7 Linux PowerPC 的 系统 调用 


在 Linux 系统 中 ,系统 调用 发 挥 着 巨大 的 作用 。 如 果 没 有 系统 调用 ,应 用 程序 将 不 能 访问 
Linux 内 核 的 任何 资源 。Linux 系统 可 以 通过 外 部 中 断 或 者 异常 进入 Linux 核心 空间 ,但 是 外 
部 中 断 或 者 异常 的 发 生 是 随机 的 ,并 不 受 程序 员 控 制 。 而 系统 调用 可 以 由 程序 员 控制 ,使 
CPU 主动 地 从 应 用 空间 切换 到 Linux 内 核 空间 。 当 系统 调用 运行 结束 后 ,CPU 又 可 以 从 Lin- 
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ux 内 核 空 间 切换 到 应 用 空间 。 

Linux PowerPC 使 用 系统 调用 ,将 进程 的 用 户 空间 和 核心 空间 隔离 。 

进程 运行 在 Linux PowerPC 的 用 户 空间 时 , 只 能 访问 PowerPC 用 户 模 式 的 寄存 器 ,进行 
一 些 基本 的 逻辑 运算 操作 。 用 户 进 程 访问 Linux PowerPC 的 外 部 设备 ,文件 系统 及 网 络 系统 
等 核心 资源 时 ,需要 通过 系统 调用 进入 到 Linux 内 核 空 间 ,获得 这 些 资源 ,再 将 这 些 资 源 从 
Linux 内 核 传递 到 用 户 空间 。 

Linux 系统 这 一 机 制 有 效 保证 了 系统 的 核心 空间 与 用 户 空间 之 间 的 相对 独立 性 , 某 个 进 
程 在 用 户 空 间 中 的 异常 并 不 会 影响 Linux 核心 空间 的 稳定 性 。 系 统 调 用 是 Linux 内 核 提供 的 
一 组 功能 强大 的 接口 函数 。Linux 系统 对 系统 调用 的 支持 从 库 函 数 开始 。 

在 Linux 系统 中 ,需要 使 用 系统 调用 的 库 图 数 ,将 在 合适 的 位 置 调 用 PowerPC 处 理 融 提 
供 的 “sc 指令 "。 这 条 指令 是 PowerPC 处 理 器 为 系统 调用 定制 的 ,其 他 所 有 支持 操作 系统 这 种 
系统 调用 功能 的 处 理 器 都 有 类 似 的 这 种 指令 ,如 Intel i386 体系 使 用 INT 0x80 完成 类 似 的 功 
能 。 如 果 在 处 理 项 中 没有 这 种 指令 ,系统 调用 的 功能 将 无 法 实现 。 

PowerPC 处 理 需 运行 sc 指令 后 ,将 产生 系统 调用 异常 ,使 处 理 絮 从 用 户 态 切换 到 核心 态 。 
之 后 ,Linux PowerPC 截获 处 理 器 产生 的 系统 调用 异常 ,调用 内 核 提供 的 系统 调用 函数 完成 用 
户 进 程 的 系统 调用 请 求 。 

Linux 系统 共 支 持 以 下 几 类 系统 调用 : 

e 进程 控制 类 系统 调用 。 这 类 系统 调用 包括 fork、 clone、 execve、 exit、_ exit、 getpgid、 

setpgid、pause、nice 和 wait 等 一 系列 系统 调用 。Linux PowerPC 提供 了 许多 支持 进程 控 
制 类 的 系统 调用 。 但 是 应 用 软件 程序 员 并 不 经 常 使 用 这 类 系统 调用 ,其 中 许多 系统 调 
用 并 不 被 应 用 软件 程序 员 熟 悉 。 希 望 程序 员 有 机 会 仔细 浏览 一 让 这 些 系 统 调 用 。 也 许 
了 解 了 这 类 系统 调用 后 ,应 用 软件 程序 员 能 够 写 出 更 加 完备 的 应 用 程序 。 

e@ 文件 系统 控制 类 系统 调用 。 这 类 系统 调用 共 由 两 部 分 组 成 ,第 一 部 分 是 对 文件 操作 的 
系统 调用 ,第 二 部 分 是 对 文件 系统 操作 的 系统 调用 。 文 件 操 作 类 系统 调用 包括 open、 
create、close .write、read、fcntl、readv、writev、dup 和 dup2 等 一 系列 系统 调用 。 文 件 系统 
操作 类 系统 调用 包括 chmod、chown、chroot、access、mkdir、mknod、link 和 unlink 等 一 系 
列 系统 调用 。 

e@ 系统 控制 类 系统 调用 。 这 类 系统 调用 主要 用 来 获取 操作 系统 资源 、 控 制 文 件 谈 写 和 文 
件 系统 ,包括 ioctl、acct reboot getitimer、setitimer、uname、time、create _ module delete _ 
module 等 一 系列 系统 调用 。 

e@ 内 存 管理 类 系统 调用 ,包括 brk sbrk .mlock mmap munmap 和 mremap 等 一 系列 系统 
调用 。 注 意 Linux 系统 并 没有 为 应 用 软件 程序 员 所 熟悉 的 malloc 函数 ,提供 一 条 专门 
的 系统 调用 。 在 多 数 情 况 下 ,用 户 调 用 malloc 函数 时 ,Linux 系统 不 会 真正 地 进行 物理 
内 存 申请 。 

e 网 络 管理 类 系统 调用 ,包括 getdomainname setdomainname、socketall socket .connect \lis- 
ten、send 和 receive 等 一 系列 系统 调用 。 

e@ 进程 间 通 信 类 系统 调用 ,包括 sigaction、signal、kill、sigsuspend、msgget、msgsnd 和 pipe 等 
一 系列 系统 调用 。 
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6.7.1 应 用 程序 如 何 进入 系统 调用 


在 Linux 系统 中 ,与 系统 调用 相关 的 库 函 数 ,其 数量 远大 于 Linux 系统 中 ,系统 调用 的 数 
量 , 多 个 与 系统 调用 有 关 的 库 消 数 可 能 共享 同一 个 Linux 系统 中 的 系统 调用 。 

在 Linux PowerPC 中 ,有 关系 统 调用 的 宏 定 义 在 ./include/asm-powerpc/unistd.h 文 
件 中 。 


Hdefine NR syscalls 302 
#define NR _ syscalls _ NR _ syscalls 


#define __ NR _ restart _ syscall 0 
#define _ NR _ exit 
井 define __ NR fork 2 


#define NR set_ robust_ list 300 
#define _ NR_ move pages 301 


宏 NR _ syscalls 存放 系统 调用 的 总 数 ,在 Linux PowerPC 中 ,一 共有 302 个 系统 调用 。 

在 Linux PowerPC 中 , 宏 定 义 ”NR _restart _syscall 一 ”NR _ move _ pages 存放 所 有 的 
系统 调用 号 。 如 果 用 户 希 望 自己 添加 一 个 系统 调用 ,需要 首先 增加 NR _ syscalls, 然 后 再 添加 
一 个 系统 调用 号 ,当然 用 户 还 需要 在 Linux 内 核 中 ,添加 相应 的 系统 调用 处 理 函 数 。 一 般 情况 
下 ,Linux PowerPC 不 建议 用 户 采 用 添加 新 的 系统 调用 。 因 为 对 于 绝 大 多 数 应 用 , 现 有 系统 调 
用 的 数量 已 经 足够 。 

Linux PowerPC 提供 了 一 系列 宏 定 义 实现 函数 库 与 系统 调用 之 间 的 接口 .在 这 些 接口 宏 
中 .将 执行 “sce” 指令 ,从 而 引发 PowerPC 处 理 器 的 系统 调用 异常 。Linux 2.6.20 源 代码 将 这 些 
接口 宏 从 Linux 源 代码 中 移出 ,因为 Linux 系统 的 开发 人 员 不 认为 这 些 代码 属于 Linux 内 核 。 
但 是 在 Linux 2.6.19 的 源 代 码 中 ,依然 可 以 在 .Ainclude/asm-powerpc/unistd,h 文件 中 ,发 现 
这 些 宏 。 这 些 宏 分 别 为 。 syscall0， syscalll ， syscall2 ， syscall3， 
syscall6 ,其 源 代 码 如 下 所 示 : 


# define _ syscall( type, name) 
type name( void) 
| 

_ syscall _ nr(0, type, name); 
| 


syscall4， syscalls 和 _ 


De 


# define_ syscalll (type, name, typel ,argl ) 
type name( typel argl) 


| 
1 


Be 


_ syscall nr(1,type, name,argl ); 


| 
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# define _ syscall6é( type, name, typel ,argl ,type2,arg2,type3,arg3， 
type4 ,arg4 , typeS ,args . type6 , arg6 ) 
type namel typel argl,type2 arg2,type3 arg3, 
type4 argd, typeS arg5, typeb arg6 ) 
| 
_ syscall_ nr(6,type.name.arg] ,arg2 .arg3.argd ,arpgs ,argh ); 
| 


Linux 系统 根据 系统 调用 而 要 使 用 的 参数 将 系统 调用 分 成 右 干 类 ,只 有 一 个 参数 的 系统 
通过 宏 _ syscalll 进入 Linux 系统 的 系统 调用 处 理 程序 ;两 个 参数 的 系统 调用 通过 宏 _ syscall2 
进入 Linux 系统 的 系统 调用 处 理 程序 , 依 此 类 推 。 目 前 在 Linux PowerPC 中 ,系统 调用 最 多 文 
持 6 个 参数 。 

在 _syscallx 宏 中 ,type 参数 存放 对 应 参数 的 类 型 ,name 参数 表示 系统 调用 的 名 字 ,arg 参 
妆 用 来 存放 参数 的 名 字 。 宏 _ syscallx 调用 宏 syscall _ nr 执行 sc 指令 。 库 国 数 在 使 用 系统 
调用 时 ,首先 需要 使 用 宏 syscallx 对 需要 使 用 的 系统 调用 进行 原型 定义 ,之 后 使 用 这 些 系 统 
调用 。 下 文 以 time 系统 调用 为 例 , 说 明 用 户 库 如 何 使 用 _ syscallx 宏 。 


#include < stdio.h> 


Ee 


_ syscalll(time_ t,time,time 1 * ,tloc) 
main( ) 
| 

time _ 1 current _ time:; 

the time=time((time +t * )0); 

print{( The time is %ld \ nn current _ time); 


| 


上 述 程序 首先 调用 宏 _syscalll 对 time 函数 进行 原型 定义 ,之 后 调用 time 图 数 获得 系统 时 
间 ,并 使 用 printf 将 此 信息 输出 。_ syscalll (time _t,time,time t * ,tloc) 等 效 于 以 下 代码 : 


time_1t time(time +t * tloc) 
| 

_ syscall nr(1,time _ t, time, tloc); 
| 


在 Linux PowerPC 中 , 宏 syscall _ nr 执行 系统 调用 指令 sc, 完 成 用 户 空 间 与 Linux 内 核 
空间 的 交互 。 syscall _nr 源 代码 如 下 所 示 : 


#define syscall nr(nr,type,name,args...) 
unsigned long sc_rer,， sc _ err; 
| 
register unsigned long _ sc 0 asm (和 ); 
register unsigned long _ sc 3 asm_ (rr3):; 
register unsigned long _ sc 4 asm (rd); 


a a 
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register Unsigned long _ sc_5 _ asm _(r3’); 
register unsigned long _ sc 6 asm (mw’); 
register unsigned long _ ss 7 asm (17'); 
register unsigned long _ sc 8 asm_ (8 ); 


a 


sc _ loadargs_ 划 划 nr(name,args); 

这 上 段 程序 首先 使 用 0 和 r3 一 8 寄存 器 ,保存 变量 sc 0， sc_ 3 一 sc _ 8。 然后 这 段 

程序 使 用 宏 _ sc _ loadargs 将 系统 调用 号 NR _# #name 存放 到 ” sc _0 中 , 即 寄存 器 四 
中 。 在 Linux 系统 中 ,系统 调用 处 理 函 数 使 用 系统 调用 号 ,查找 相应 的 系统 调用 处 理 国 数 。 


_asm _ volatile 
(“sc NA 
infcr %0 


: 三 人 Fr (sc_0)， 
有 as 4)， 
‘=&r (sc _ 5),=&r ( se 6), 
‘=&r (sc_7), =&r (sc_8) 
:_ Se_ asm _ input ### nr 
: cr0 ，ctr , memory ， 
区，r0 ri， r12”); 
以 上 这 段 程序 使 用 了 Gec 的 内 联 汇编 代码 ,Gec 的 内 联 汇 编 代码 可 以 将 汇编 语言 直接 握 
和 到 C 代码 中 执行 。 初 次 接触 这 种 汇编 结构 的 用 户 . 可 能 会 对 此 不 适应 。 但 是 采用 这 种 内 联 
汇编 代码 ,可 以 由 Gee 动态 地 分 配 通 用 寄存 器 资源 ,并 可 以 直接 使 用 在 C 程序 中 定义 的 变量 。 
这 种 格式 的 汇编 语句 使 用 ": "将 整个 代码 分 为 四 个 部 分 。 
e 第 一 部 分 是 汇编 代码 本 身 , 被 称 为 指令 部 分 ,其 格式 与 在 PowerPC 汇编 语言 基本 相同 ， 
这 一 部 分 年 第 一 个 ": 之 前 

e 第 二 部 分 在 第 一 个 ": 与 第 二 个 : "之 间 ,此 部 分 是 输出 部 分 (Output) ,用 于 描述 输出 操 
作 数 。 其 中 ,不 同 操作 数 之 间 需 要 用 逗号 格 开 , 每 个 操作 数 描述 符 由 C 语言 变量 组 成 。 
在 每 个 输出 操作 数 的 字符 串 中 ,必须 包含 “= "表示 它 是 一 个 输出 操作 数 ， 

e 第 三 部 分 在 第 二 个 ": "与 第 三 个 “: "之 间 ,此 部 分 是 输入 部 分 (input) .该 部 分 表示 输入 操 
作 数 ,不 同 的 操作 数 之 间 必 须 用 逗号 格 开 。 

e 也 后 一 个 部 分 在 第 三 个 “:" 之 后 ,此 部 分 是 破坏 描述 部 分 (Clobber/Modify) ,通知 Gec， 
当前 内 联 汇 编 语句 可 能 会 对 某 些 寄存 器 或 内 存 进行 修改 ,希望 Gcc 在 生成 汇编 代码 时 
能 够 将 这 些 被 破坏 的 部 分 进行 预 处 理 。 

Gec 内 联 汇编 的 语法 和 实现 较为 复杂 ,本 书 仅 说 明 与 宏 定 义 _ syscall _ nr 有 关 的 语法 ,对 
此 有 兴趣 的 读者 可 以 参考 Gec 使 用 手册 , 见 http://gce.gnu.org/onlinedocs。Gee 的 使 用 手册 
详细 讲述 了 如 何 使 用 内 联 汇 编 . 

1. 宏 syscall _nr 内 联 代码 的 第 一 部 分 

宏 syscall _nr 内 联 代 码 的 第 一 部 分 如 下 : 
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asm __ __ volatile__ Ny 

("sc VAN 

“mfcr %0  “ \ 

8” asm “表示 其 后 的 代 公 为 Gcc 的 内 联 汇 编 ,”_ volatile _“ 表 不 编译 规 不 要 优化 这 
段 代 位 。 

@ “sc" 是 PowerPC 处 理 器 的 系统 调用 指令 ,执行 此 指令 后 ,PowerPC 处 理 忆 将 产生 系统 调 
用 异常 ,并 由 Linux PowerPC 处 理 系 统 调 用 异常 。“\ n\t "是 制 表 符 ,Gee 内 联 汇编 规 
定 , 除 了 最 后 一 条 汇编 语句 外 ,在 其 他 每 一 条 语句 后 ,都 必须 加 入 *\ n\t" 制 表 符 。 

@ 当 系 统 调 用 异常 处 理 函 数 返回 时 ,执行 mfcr 指令 将 CR 寄存 器 的 内 容 存 人 %0 所 代表 
的 变量 中 。%0 用 于 描述 第 一 个 变量 . 

2. 宏 _ syscall _nr 内 联 代码 的 第 二 部 分 

宏 syscall _nr 内 联 代码 的 第 二 部 分 如 下 所 示 : 


:三 &r {me 0)， AN 
‘=r (8 3), =&r ( dd), \ 
=&r ( se 5), =&r (_ st_6), \ 
"= (se 1), =@&r ( sc_8) \ 
ss se 0 代表 %0， sce_ 3 代表 %1，_se 4 代表 2: e868 代表 %65 
e 在 这 段 代 码 中 ,“ =" 前 绿 表 示 , 它 所 修饰 的 变量 (如 。_ sc_0) 是 一 个 输出 变量 ;有 &" 前 级 
表示 , 它 所 修饰 的 变量 不 能 和 输入 变量 使 用 相同 的 寄存 器 ,“r” 前 缀 表示 , 它 所 使 用 的 变 


量 将 放 人 通用 寄存 器 中 。 细心 的 读者 可 能 已 经 发 现在 宏 定义 _ syscall _ nr 中 ,实际 上 
已 经 定义 了 sec _ 0， sc 3 一 ”sc_ 8 使 用 0.r3 一 r8 寄存 絮 . 因 此 在 这 里 使 用 前 绿 
“r" 并 没有 太 大 意义 

3. 宏 _ syscall _nr 内 联 代 码 的 第 三 部 分 

宏 syscall _nr 内 联 代 三 的 第 三 部 分 如 下 : 


: sc _ asm _ input 并 井 nr \ 
对 于 只 有 一 个 操作 数 的 系统 调用 ,nr 为 1 ,上述 代码 等 效 于 以 下 代 公 : 
:sO{ se 0),1( se_3) \ 


@ 在 这 条 语句 中 ,“0”" 和 "1" 前缀 表 示 ， sc _0 使 用 %0 所 代表 的 变量 ,而 sec_3 使 用 %1 
所 代表 的 变量 。 
@ 对 于 只 有 一 个 操作 数 的 系统 调用 ,上 述 代 码 表 示 _sc 0 和 sc _ 3 是 一 个 输入 /输出 
变量 ,并 且 其 使 用 的 寄存 器 分 别 是 m 和 了 蕊 。 
4. 宏 syscall _nr 内 联 代 码 的 第 四 部 分 
宏 syscall _nr 内 联 代 人 码 的 第 四 部 分 如 下 : 
:“cr0 ，ctr ，memory ， \ 
"79" ,rt10, rll”, rl2"); \ 
内 联 汇编 的 第 四 部 分 声明 了 一 些 在 汇编 程序 中 使 用 的 寄存 器 ,这 些 寄 存 器 震 要 被 保存 起 
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来 以 便 恢 复 。“memory "的 作用 需要 稍微 解释 一 下 ,编译 器 在 优化 处 理 器 有 关内 存 访问 的 代码 
时 ,经 党 将 内 存 变 量 保存 到 寄存 器 中 ,调整 指令 顺序 ,并 充分 利用 处 理 器 的 指令 流水 线 。 在 某 
些 情况 下 ,这 种 指令 顺序 的 调整 会 引起 内 存 一 致 性 问题 。Linux 系统 可 以 设置 内 存 屏 障 
(memory barrier) 解 决 这 些 问 题 ， 

这 有 段 内 联 汇 编 中 的 “memory 就 是 起 内 存 屏 障 的 作用 。 在 内 联 汇编 中 如 果 有 指令 修改 了 
闪存 ,需要 在 第 四 部 分 增加 ”memory” ,通知 Gcc 编译 器 ,内 存 可 能 会 被 修改 ,Gec 得 知 这 个 信 
县 后 ,就 会 在 这 段 指 令 之 前 . 插 人 必要 的 指令 保证 内 存 的 一 致 性 。 

5. 宏 syscall _nr 在 内 联 汇编 代码 之 后 的 源 代 码 


Se t= -和 丰 3， \ 
_s er= gs_0; \ 
和 
if(__ sc_ er & 0x10000000) \ 
| 
errno 一 sc_ret; \ 
— ee det = = \ 
\ 


return (type) sc ret 


9 执行 sc 指令 后 .Linux PowerPC 将 进行 系统 调用 异常 处 理 , 其 处 理 过 程 将 在 下 文 详 细 介 
绍 。 在 执行 完 系 统 调用 异常 后 ,通用 寄存 器 r3 保存 返回 值 ,而 通用 寄存 器 只 保存 错误 

9 如 后 系统 调用 返回 时 出 现 错 误 , 则 使 用 变量 errno 保存 错误 代码 ,并 将 变量 se _ret 赋 
值 为 -1 表示 有 错误 发 生 。 


6.7.2 Linux PowerPC 的 系统 调用 异常 


执行 sc 指令 时 .PowerPC 处 理 器 将 产生 系统 调用 异常 。 E500 内 核 使 用 IVPR 与 TVOR8 
琳 存 器 ,保存 系统 调用 异常 向 量 的 有 效 地 址 ， 在 执行 sc 指令 后 ,PowerPC 处 理 器 将 进行 以 下 

(1) 将 sc 指令 的 下 一 条 指令 的 有 效 地 址 存放 到 SRR0 寄存 器 中 。 

(2) 将 当前 MSR 寄存 器 的 内 容 存放 到 SRR1 寄存 器 中 。 

(3) 保留 MSR 寄存 器 的 CE,ME 和 DE 位 ,其 他 位 清 零 。 

(4) 将 程序 跳 转 到 IVPR 和 IVORS8 指定 的 地 址 处 执行 ， 

在 Linux PowerPC 中 ,系统 调用 与 外 部 中 断 的 初始 化 较为 类 似 。Linux PowerPC 使 用 宏 
定义 SET_IVOR 将 PowerPC E500 内 核 中 的 IJVORS 寄存 器 赋值 为 SystemCall 函数 的 有 效 地 
址 ,其 源 代码 如 下 : 

SET _ IVOR(8, SystemCall); 

当 系 统 调 用 异常 发 生 后 ,Linux PowerPC 调用 SystemCall 函数 对 系统 调用 进行 处 理 。Sys- 

temCall 孙 数 的 源 代码 在 . /arch/powerpc/kernel/head fsl booke.S 文件 中 。 这 段 代码 等 效 于 


以 下 源 代码 : 
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.align 5 
System(all: 
NORMAL EXCEPTION PROLOG:; 
EXC XFER _EE_ LITE (0x0000,DoSyscall) 


这 段 程序 与 ExternalInput 函数 的 执行 过 程 基本 相同 。 只 是 在 SystemCall 的 初始 化 中 ,使 
用 了 宏 EXC_XFER EE_ LITE 而 不 是 EXC_XFER _LITE。 

这 两 个 宏 的 主要 区 别 在 于 ,在 EXC XFER EE _LITE 宏 中 ,使 用 宏 COPY _EE 将 MSR 
寄存 器 的 EE 位 置 为 1; 而 在 EXC _ XFER LITE 中 ,将 MSR 寄存 器 的 EE 位 置 为 0。 因 此 在 
Linux PowerPC 处 理 系统 调用 异常 时 ,外 部 中 断 将 被 使 能 ,从 而 提高 了 整个 Linux 系统 对 外 部 
中 断 的 响应 能 力 ， 

宏 NORMAL _EXCEPTION _PROLOG 的 详细 描述 见 6.4.1 市 。 宏 EXC_XFER _EE_ 
LITE (0x0c00,DoSyscall) 等 效 于 以 下 代码 ， 


li ri0,0x501; 
stw rl0,TRAP(r11); 
lis ri0,MSR KERNEL @h:; 
ori rl0,rl0,MSR KERNEL @!I; 
COPY _ EE (r10,19) 
bl transfer to_ handler; 
Jong DoSyscall; 
.long ret from _ except 
这 段 代 码 与 ExternalInput 中 断 处 理 程序 的 相应 代码 类 似 。SystemCall 异常 处 理 程序 在 执 
行 完 transfer _ to _ handler 函数 之 后 ,分别 调用 DoSyscall 和 ret _ from _ except 图 数 ,进行 Lin- 
ux 系统 调用 的 处 理 。 
其 中 transfer _ to handler 和 ret _ from _ except 图 数 的 处 理 过 程 与 外 部 中 断 的 处 理 过 程 
相同 。 读 者 可 以 回顾 本 章 有 关外 部 中 断 处 理 的 内 容 , 了 解 这 两 个 的 函数 的 实现 过 程 。 
在 Linux PowerPC 中 ,DoSyscall 函数 是 处 理 系统 调用 异常 的 主要 组 成 部 分 ,其 图 数 的 源 
代码 见 . /arch/powerpc/kernel/entry 32.S 文 件 。 
DoSyscall 函数 由 两 部 分 组 成 ,第 一 部 分 是 进入 系统 调用 异常 处 理 函 数 DoSyscall, 第 二 部 
分 是 从 系统 调用 异 稼 中 返回 ret _ from _ except。 
1. 系统 调用 异常 处 理 函 数 
DoSyscall 函数 的 源 代 码 如 下 : 
_GLOBAL(DoSyscall) 
stw 10,THREAD+ LAST_SYSCALL(®2) 
stw 13,0RIG GPR3(r]l) 
ii rl2,0 
stw tl2,RESULT(r1) 
lwz rll, CCR(rI) /A* Clear SO bit n CR */ 
rlwinm rll,rll,0.4,2 
stw rll,_ CCR(r1) 


a 
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rwinm rl0,r1,0,0.(31-THREAD _ SHIFT) /¥ current thread info() #/ 
lwz rll,TI FLAGS(r10) 
andi. rll,rll, TIF_ SYSCALL T_OR A 
bne- syscall _ dotrace 
syscall _ dotrace _ cont: 
cmplwi 0,70,NR svyscalls 
lis ri0,sys_call _ table@h 
ori ri0.ri0,sys call _ table(@®! 
slwi 0,r0,2 
bege- 66f 
lwzx rl0,r10,0 /* Fetch system call handler [ptr] */ 
mtlr rl0 
addi ,rl,STACK FRAME OVERHEAD 
PPCAAOEP ERR42 
blrl A¥* Call handler * / 


在 Linux PowerPC 中 ,所 有 系统 调用 首先 进入 DoSyscall 函数 ,之 后 根据 系统 调用 号 ,在 系 
统 英 用 表 中 ,查找 到 相应 系统 调用 的 处 理 函 数 后 ,执行 此 函数 。 这 段 程序 的 原理 较为 简单 ,请 
读者 目 行 分 析 理 解 ， 

在 Linux PowerPC 中 ,使 用 0 存放 系统 调用 号 ,使 用 sys _ call _ table 变量 存放 系统 调用 
处 理 函 数 的 基地 址 , 即 系统 调用 表 - sys _ call _ table 变量 在 . /arch/powerpc/kernel/systbl.S 
文件 中 定义 ,其 代码 如 下 所 示 : 

_ GLOBAL(sys _ call _ table) 
tinclude < asm/systbl.h> 


由 此 可 见 , 系 统 调用 表 实 际 存放 在 . /include/asm-powerpec/systbl.h 文件 中 ,该 文件 存放 着 
Linux PowerPC 所 有 系统 调用 处 理 函 数 的 入口 地 址 ,如 下 所 示 : 


SYSCALL (restart syscall) 
SYSCALL(exit) 

PPC _ SYS(fork) 

SYSCALL _ SPU(read) 
SYSCALL SPU(write) 
COMPAT SYS_ SPU(open) 


SYSCALL SPU(faccessat) 
COMPAT _SYS_ SPU(get robust list) 
COMPAT SYS SPU(set robust list) 


需要 提醒 读者 注意 ,在 这 个 文件 中 ,系统 调用 处 理 函 数 的 存放 顺序 需要 与 /include/asm- 
powerpc/unistd.h 文件 中 定义 的 系统 调用 号 一 致 。 
比如 NR _ exit 的 值 为 1 ,其 处 理 函 数 sys _ exit 必须 排 在 systbl.h 文件 中 的 第 二 行 。sys 
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_ restart _syscall 函数 排 在 systbl.h 文件 的 第 一 行 ,为 sys _ call _ table 指针 所 指向 的 第 一 个 系 
统 调用 处 理 函 数 ， 
下 文 以 系统 调用 open 为 例 ,说 明 系 统 调 用 处 理 函 数 在 Linux PowerPC 中 的 执行 过 程 。 首 
先 程序 员 使 用 Glibc 中 提供 的 open 库 函 数 进 行 系统 调用 操作 。open 库 函 数 有 三 个 参数 ,分 别 
为 pathname,oflag 和 mode。 程序 员 也 可 以 只 使 用 前 两 个 参数 pathname 和 oflag。open 函数 的 
原型 定义 如 下 : 
int open (const char * pathname, int oflag, .../* .mode_t mode */): 
open 图 数 的 执行 过 程 如 下 : 
@ 执行 open 图 数 时 ,Linux 系统 调用 _syscall2(int,open,const char * ,int,oflag) 函 数 , 并 
在 _ syscall2 函数 中 ,执行 “sc 指令 。 
9 之 后 Linux PowerPC 进入 系统 调用 异常 中 断 程序 ,此 时 寄存 器 r3 和 寄存 器 r4 的 值 分 别 
与 pathname 和 oflag 参数 对 应 。 而 寄存 器 只 被 赋值 为 5。 
@ 通过 sys _ call _ table 查询 ,得 知 COMPAT _ SYS _ SPU(open) 图 数 将 处 理 open 系统 调 
用 ,COMPAT _SYS_ SPU(open) 函 数 与 sys _ open 函数 等 效 。sys _open 函数 的 参数 为 
filename, flag,mode, 与 open 库 国 数 的 参数 一 一 对 应 。 
9 执行 sys _ open 国 数 ,在 Linux 内 核 中 ,创建 文件 描述 符 和 相应 的 inode 节点 。 最 后 从 系 
统 调 用 异常 中 返回 。 
2. 从 系统 调用 异常 中 返回 
DoSyscall 图 数 在 “blrl 指令 执行 完毕 后 ,从 系统 调用 异 背 中 返回 。Linux PowerPC 在 系统 
调用 返回 时 , 宙 要 做 以 下 工作 : 
(1) 检查 系统 幸 用 处 理 图 数 返回 状态 ,并 根据 返回 状态 更 新 CR0 
(2) 恢复 系统 调用 异常 现场 , 跳 转 到 ret from _ except 函数 ,完成 系统 调用 异常 的 返回 。 
ret _ from _ except 国 数 的 详细 说 明 见 6.5 节 。 
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第 7 将 Linux PowerPC 的 内 存 管 理 


存储 器 是 处 理 器 系统 的 重要 组 成 部 分 ,由 内 部 存储 器 和 外 部 存储 器 组 成 。 其 中 ,内 部 存储 
娠 ,如 SDRAM、DDR-SDRAM.、SRAM 等 ,用 来 保存 程序 使 用 的 指令 与 数据 ,可 以 与 处 理 器 直 
接 交换 数据 。 而 外 部 存储 器 ,如 Flash 硬盘 等 ,用 来 存放 程序 或 者 其 他 静态 的 数据 。 

Linux 系统 使 用 文件 系统 管理 外 部 存储 区 ,使 用 内 存 管 理子 系统 管理 内 部 存储 器 。 在 
Linux 系统 中 , 内存 是 最 重要 的 资源 。 如 果 将 进程 调用 子 系统 比喻 为 Linux 系统 的 心脏 ,那么 
内 存 管理 系统 就 是 Linux 系统 的 血液 。 在 Linux 系统 中 ,内 存 管理 子 系统 是 最 核心 ,也 是 最 难 
理解 的 一 部 分 内 容 。 

Linux 系统 的 内 存 管理 主要 包含 以 下 内 容 : 

(1) 虚实 地 址 转换 。 在 一 个 32 位 处 理 器 系统 中 ,物理 内 存 空间 最 大 为 4 GB。 在 这 个 4 
GB 的 物理 空间 中 ,还 包括 外 部 设备 使 用 的 一 些 物理 地 址 空间 ,如 PCI 总 线 ,PowerPC 处 理 器 
内 部 的 寄存 顺 等 。 在 Linux 系统 中 ,这 个 4 GB 大 小 的 物理 地 址 空间 最 终 要 映射 到 Linux 内 核 
直接 管理 的 1 GB 核心 空间 中 , 即 0xC000-000 一 0xFFFF-FFFF 这 段 地 址 空间 中 。 因 此 在 Lin- 
ux 系统 中 需要 进行 物理 地 址 空间 到 Linux 内 核 的 虚拟 地 址 空间 的 转换 。 

除 此 之 外 ,在 32 位 处 理 需 系统 中 , Linux 系统 的 每 一 个 用 户 进程 ,都 有 3 GB 大 小 的 虚拟 
地 址 空间 ,而 且 每 一 个 用 户 进程 都 使 用 0x0000-0000 一 0xBFFF-FFFF 这 段 虚 拟 地 址 空间 。 在 
Linux 系统 中 , 虽然 不 同 的 进程 都 使 用 相同 的 虚拟 地 址 空间 ,但 是 这 些 虚拟 地 址 空间 相互 独 
立 , 相 互 间 不 存在 任何 干扰 。 因 为 在 Linux 系统 中 ,这些 进程 的 虚拟 地 址 空间 被 映射 到 不 同 的 
物理 地 址 空间 中 。 

基于 以 上 这 两 种 需求 ，Linux 系统 引入 了 虚拟 内 存 技术 ,采用 这 种 技术 可 以 将 无 限 大 的 虚 
拟 地 址 空间 映射 到 有 效 的 物理 地 址 空间 中 ,同时 有 效 管理 Linux 系统 的 核心 空间 。 

在 PowerPC 处 理 种 中 ,设置 了 专门 的 MMU 和 与 此 相关 的 寄存 器 ,支持 这 种 虚实 地 址 转 
换 。 如 在 E500 内 核 中 设置 了 TLB1 和 TLB0 两 种 硬件 查找 表 , 支持 虚 实地 址 转换 。 基 于 
E500 内 核 的 Linux PowerPC, 除 了 使 用 TLB1 和 TLB0O 进行 虚实 地 址 转换 外 ,还 使 用 了 中 断 机 
制 和 一 些 数据 结构 ,来 完成 虚实 地 址 的 转换 。 

(2) Linux PowerPC 的 核心 空间 的 管理 。 如 上 文 所 示 , 对 于 32 位 PowerPC 处 理 器 ,Linux 
PowerPC 的 核心 空间 在 0xC000-000 一 0xFFFF-FFFF 这 段 地 址 空间 中 。 在 这 段 空 间 中 ,包含 
两 类 物理 内 存 : 一 类 是 主 存储 器 ,在 32 位 处 理 器 系统 中 , 主 存储 器 使 用 DDR 或 者 SDRAM , 主 
存储 器 主要 用 来 存放 Linux 系统 的 程序 与 数据 ; 男 一 类 是 外 部 设备 ,在 PowerPC 处 理 器 中 ， 外 
部 设备 使 用 的 寄存 器 采用 存储 器 映射 方式 进行 寻 址 。 

Linux PowerPC 核心 空间 的 管理 主要 针对 主 存储 器 。 在 Linux PowerPC 中 , 主 存储 器 的 
地 址 空间 被 映射 到 Linux PowerPC 的 核心 空间 中 。 对 于 32 位 PowerPC 处 理 器 ,其 可 支持 的 
主 存 储 顺 的 大 小 可 能 超过 1GB, 而 在 Linux PowerPC 中 ,核心 空间 最 大 也 只 有 1GB 空间 。 对 
于 这 种 主 存储 上 需 容 量 过 大 的 应 用 ,Linux PowerPC 需要 使 用 HIMEM 来 管理 高 端 内 存 ,或 者 放 
弃 对 主 存 储 器 高 端 物理 内 存 的 使 用 。 
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目前 基于 32 位 处 理 器 的 Linux PowerPC, 其 1 GB 大 小 的 核心 空间 ,已 经 显得 捉襟见肘 。 
这 是 因为 在 Linux PowerPC 中 ,1 GB 核心 空间 除了 要 映射 主 存储 器 空间 之 外 ,还 要 映射 外 部 
设备 使 用 的 地 址 空间 ,此 外 VM 还 要 占用 一 部 分 核心 空间 。 

在 Linux PowerPC 中 ,只 能 直接 映射 768 MB 大 小 的 主 存储 器 空间 。 当 Linux PowerPC 
使 用 大 于 768 MB 的 主 存储 器 空间 时 ,Linux PowerPC 需要 将 这 些 高 端 内 存 空间 (大 于 768MB 
的 部 分 ) 映 射 到 HIMEM 中 。 有 关 HIMEM 和 VM 的 内 容 见 下 文 。 

Linux 系统 除了 要 将 处 理 器 系统 中 的 物理 地 址 空间 映射 到 核心 空间 进行 管理 之 外 ,还 需 
要 重点 考虑 如 何 高 效 地 管理 主 存储 器 ,如 何 尽 可 能 地 减少 主 存储 器 中 的 碎片 。 

Linux 系统 采用 了 许多 种 内 存 管 理 算法 ,如 Buddy System 和 SLB 分 配器 ,优化 Linux 系 
统 物 理 内 存 的 访问 效率 ,并 尽量 减少 在 物理 内 存 中 的 碎片 。Linux 系统 在 引导 时 ,还 采用 了 一 
种 特殊 的 物理 内 存 Boot Memory。 在 Linux 系统 进行 引导 时 ,只 能 使 用 Boot Memory 中 的 
物理 内 存 , 初 始 化 Linux 系统 中 其 他 子 系统 ,包括 内 存 管理 子 系统 。 

(3) 进程 地 址 空间 。 在 Linux 系统 中 ,每 一 个 用 户 进 程 都 有 独立 的 用 户 地 址 空间 ,Linux 
系统 需要 对 这 些 进程 地 址 空间 进行 有 效 管 理 , 使 得 这 些 进程 地 址 空间 不 会 互相 干扰 。 有 时 进 
程 地 址 空间 还 需要 与 文件 系统 进行 交互 ,将 可 执行 文件 从 硬盘 等 外 部 存储 设备 中 读 到 主 存储 
髓 中 。 

对 于 物理 内 存 的 管理 及 进程 地 址 空间 的 管理 这 部 分 源 代码 来 说 ,Linux PowerPC 与 基于 
其 他 体系 的 Linux 系统 ,如 Linux Pentium, 并 没有 本 质 的 不 同 。 但 是 在 进行 虚实 地 址 的 转换 
时 ,Linux PowerPC 与 基于 其 他 体系 的 Linux 系统 有 本 质 的 区 别 。 

对 于 不 同 PowerPC 处 理 需 的 内 核 , 如 603E 内 核 和 E500 内 核 ,其 硬件 MMU 管理 部 件 有 
较 大 的 差异 ,因此 不 同 内 核 的 PowerPC 处 理 器 采用 了 不 同 的 方法 进行 虚实 地 址 转换 。 本 书 将 
以 PowerPC E500 内核 为 例 对 Linux PowerPC 内 存 管理 进行 详细 分 析 , 同 时 兼顾 基于 603E 内 
核 的 Linux PowerPC。 





7.1 Linux PowerPC 的 虚实 地 址 的 转换 


在 Linux PowerPC 中 ,虚实 地 址 转换 包含 两 部 分 内 容 。 一 是 将 处 理 器 系统 的 物理 地 址 空 
间 映 射 到 Linux 核心 空间 中 ,如 将 物理 地 址 为 0000-0000 一 1FFFF-FFFF 的 DDR 空间 映射 到 
虚拟 地 址 为 C000-0000 一 DFFF-FFFF 的 空间 中 。 二 是 将 用 户 进 程 的 虚拟 地 址 空间 映射 到 主 
存储 妖 所 在 的 物理 地 址 空间 中 ,在 Linux 系统 中 ,用 户 进 程 使 用 0000-0000 一 BFFF-FFFF 之 间 
的 虚拟 地 址 空间 ,这 个 虚拟 地 址 空间 必须 要 映射 到 物理 地 址 空间 中 ,才能 被 Linux 系统 直接 访 
问 。 在 Linux 系统 中 ,用 户 进 程 使 用 的 3 GB 大 小 的 虚拟 地 址 空间 在 同一 时 刻 不 会 全 部 映射 到 
物理 地 址 空间 中 。 

不 同 的 PowerPC 处 理 器 提供 了 不 同 的 MMU 机 制 ,支持 虚实 地 址 的 转换 。 在 本 书 的 3.1 
节 ,我们 学 习 了 E500 内 核 的 TLB0 和 TLB1。 其 中 ,Linux PowerPC 使 用 TLBI1 实现 内 存 地 址 
空间 的 段 式 映射 ,其 大 小 可 调 。 在 E500 V1 内 核 的 TLBI 中 ,支持 的 最 大 块 为 256 MB, 最 小 为 
4KB。Linux PowerPC 使 用 TLB0 实现 Linux PowerPC 的 页 式 映射 ,只 能 支持 大 小 为 4KB 的 
物理 页 面 。 

在 讲述 Linux PowerPC 的 段 页 式 地 址 映射 之 前 ,我 们 需要 回顾 E500 内 核 硬 件 上 提供 的 
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一 些 虚实 地 址 转换 机 制 。 如 图 3-1 所 示 ,E500 内 核 的 虚拟 地 址 一 共 由 41 位 组 成 。 而 Linux 
PowerPC 没有 使 用 E500 内 核 提 供 的 PID 寄存 器 和 AS 位 ,在 Linux PowerPC 中 ,并 没有 使 用 
E500 内 核 的 地 址 空间 1, 而 只 是 使 用 ES00 内 核 的 地 址 空间 0 ,在 进行 图 3-2 中 的 虚实 地 址 转 
换 时 ,将 忽略 PID 寄存 器 。 因 此 在 Linux PowerPC 中 , 虚拟 地 址 等 效 于 E500 内 核 的 有 效 . 
地 址 。 

在 Linux PowerPC 中 ,无 论 应 用 进程 还 是 核心 进程 可 以 直接 使 用 的 地 址 只 能 是 有 效 地 址 ， 
这 个 有 效 地 址 为 32 位 ,由 EPN 和 offset 组 成 。 与 603E 内 核 不 同 ,E500 内 核 不 能 关闭 MMU， 
因此 在 E500 内 核 中 ,用 户 或 者 核心 进程 不 能 直接 访问 物理 地 址 而 只 有 将 有 效 地 址 通过 MMU 
转换 为 物理 地 址 后 ,才能 访问 相应 的 物理 地 址 。 

例如 ,Linux PowerPC 需要 访问 一 段 256 MB 大 小 物理 内 存 区 域 为 0000-0000 一 OFFF- 
FFFF 的 物理 空间 时 ,首先 需要 将 这 段 物理 内 存 区 域 映 射 到 一 段 虚 拟 内 存 区 域 ,如 0xC000- 
0000 一 0xCFFF-FFFF ,之 后 通过 访问 这 段 虚拟 地 址 对 0000-0000 一 OFFF-FFFF 这 段 物理 内 存 
区 域 进行 操作 。Linux PowerPC 可 以 使 用 段 式 映射 或 者 页 式 映射 进行 虚实 地 址 转换 。 


7.1.1 使 用 TLB1 进行 段 式 映射 


在 E500 内 核 中 , TLB1 一 共有 16 个 Entry。Linux PowerPC 使 用 TLBI1 进行 虚实 地 址 的 
段 式 映射 ,采用 有 段 式 映射 可 以 直接 使 用 硬件 提供 的 TLB1 查找 表 , 而 不 使 用 在 内 存 中 的 页 表 就 
可 以 完成 虚实 地 址 转换 。 这 种 虚实 地 址 转换 的 效率 较 高 。 

但 是 在 E500 内 核 的 TLB1 中 ,Entry 数量 有 限 ,Linux PowerPC 不 可 能 使 用 TLBI1 完成 所 
有 虚实 地 址 转换 。 基 于 E500 内 核 的 Linux PowerPC 可 以 使 用 TLB1 ,对 以 下 两 类 地 址 空间 进 
行 段 式 映 射 。 

(1) Linux PowerPC 使 用 的 核心 空间 。 在 基于 32 位 处 理 器 的 Linux PowerPC 中 , Linux 
内 核 占用 最 高 端的 1 GB 空间 , 即 0xC000-0000 一 0xFFFF-FFFF, 这 段 空 间 可 以 使 用 段 式 映射 
进行 虚实 地 址 转换 。 

(2) 外 部 设备 使 用 的 虚拟 地 址 空间 。 这 段 地 址 空间 需要 映射 到 Linux PowerPC 的 1 GB 
核心 空间 中 。Linux PowerPC 使 用 ioremap 函数 ,将 外 部 设备 使 用 的 物理 地 址 映射 为 虚拟 地 
址 ,之 后 Linux PowerPC 通过 这 个 虚拟 地 址 对 外 部 设备 进行 访问 。 

1. 使 用 段 式 映射 的 Linux 核心 空间 

在 E500 内 核 中 ,Linux PowerPC 使 用 段 式 映射 ,将 核 ， 空间 使 用 的 物理 内 存 进行 虚实 地 
址 转换 ,之 后 Linux 系统 才能 够 使 用 这 些 虚 拟 地 址 空间 。Linux PowerPC 的 核心 空间 使 用 
0xC000-0000 一 0xFFFF-FFFF 之 间 的 虚拟 地 址 空间 。 

Linux PowerPC 使 用 TLBI1 的 前 3 个 Entry 进行 虚实 地 址 转换 ,最 大 可 以 映射 768 MB 大 
小 的 物理 地 址 空间 ,所 以 只 能 使 用 0xC000-0000 一 0xEFFF-FFFF 之 间 的 核心 空间 映射 存放 在 
主 存储 器 中 的 物理 地 址 空间 。 

对 于 一 个 主 存储 器 大 小 为 768 MB 的 处 理 器 系统 ,如 果 其 使 用 的 物理 地 址 为 0x0000-0000 
一 0x3000-0000 ,那么 Linux PowerPC 将 使 用 0xC000-0000 一 0xEFFF-FFFF 这 段 虚拟 地 址 空间 
eh 如 果 一 个 处 理 恬 系统 的 主 存储 器 空间 大 于 768 MB, 那 么 大 于 768 MB 的 这 段 高 端 

空间 将 不 能 直接 映射 到 Linux 核心 空间 中 , Linux 系统 或 者 使 用 HIMEM 映射 这 些 大 于 
7s MB 的 物理 地 址 空间 或 者 放弃 对 这 些 空间 的 访问 。 
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在 Linux PowerPC 引导 时 ,调用 MMU _inmitr>mapin ram 一 mrmu_ mapin _ ram 函数 将 主 
存储 器 的 物理 地 址 空间 映射 到 核心 空间 的 0xC000-0000 一 0xEFFF-FFFF 之 间 . mu_ mapin _ 
ram 图 数 在 .MarchypowerpcAmmy fbooke mmu.c 文件 中 ,该 函数 源 代码 的 详细 说 明 如 下 : 

unsigned long _ inmit mmu_ mapin _ ram(void) 


cam_mapin_ram( cam0, _caml, _ cam?); 


return cam0 + caml + _ cam2; 


Linux PowerPC 使 用 mmu_ mapin ram 图 数 建立 Linux 系统 核心 空间 与 物理 地 址 空间 的 
了 映射。 该 晒 数 调用 cam _ maping _ ram 国 数 将 cam0、_caml 和 cam2 大 小 的 虚拟 地 址 空 
间 跃 射 到 物理 地 址 空间 。 cam0、_caml 和 cam2 是 Linux PowerPC 和 定义 的 全 局 变量 .这 
些 变 量 的 最 大 值 为 cam _ max, 其 值 为 0x1000-0000, 即 为 256 MB 
如 朱 处 理 闪 系 统一 共有 768 MB 物理 内 存 时 ，_cam0，_ caml 和 cam2 的 值 相 同和 郡 为 
256 MB; 如 果 一 个 系统 中 只 有 260 MB 物理 内 存 时 ， cam0 为 256 MB，_caml 为 4MB 而 _ 
cam2 为 0; 如 果 一 个 系统 中 只 有 64 MB 物理 内 存 时 cam0 为 64 MB，_caml 和 cam2 都 为 
0。 如 果 人 处 理 器 系统 的 物理 内 存 大 于 768 MB 时 ，_cam0，_ caml 和 __ cam2 的 大 小 都 为 256 
MB, 而 此 时 剩余 的 物理 内 存 不 能 使 用 TLB1 进行 段 式 映射 ,而 必须 使 用 HIMEM 来 管理 。 由 
此 可 见 . 基 于 32 位 PowerPC 处 理 器 的 Linux PowerPC, 最 多 只 能 直接 使 用 768 MB 大 小 的 主 存 
情 艇 。Linux PowerPC 使 用 adjust _ total .lowmem 畏 数 计算 ”cam0，_caml 和 cam2 变量 ， 
该 函数 在 系统 引导 时 由 MMU _ init 函数 调用 ,其 源 代码 详解 如 下 : 
void _ init 
adjust _ total _ lowmem( void) 
| 
unsigned long max_ low_ mem = MAX LOW MEM:; 
tnsigned long cam _ max = Ox10000000; 
unsigned long ram; 
A adiust CAM size to max low mem */ 
if (max_ low_ mem < cam_ max) 
cam max = max low_ mem:; 
/<# adjust lowmem size to max _ low_mem */ 
if (max_ low_ mem < total_ lowmem) 
ram = max_ low _ mem:; 
else 
ram = total _ lowmem:; 
adjust total lowmem 函数 的 执行 流程 如 下 : 
首先 对 变量 max _ low _ mem 和 cam max 赋值 。max low mem 变量 存放 Linux 
PowerPC 低 端 内 存 大 小 ,其 值 为 MAY LOW _MEM ,该 人 在 配置 Linux PowerPC 时 初 
始 化 ,MAX_ LOW _ MEM 等 效 于 CONFIG LOWMEM _ SIZE。 在 Linux PowerPC 
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中 ,其 值 为 768 MB。 而 cam_ max 参数 存放 TLBI1 的 一 个 Entry 可 以 映射 物理 内 存 的 
最 大 值 ,对 于 E500 V1 内 核 , 其 值 为 256 MB. 
@ 这 段 程序 根据 max _ low mem 和 total .lowmem 的 值 调整 cam max 和 ram 参数 的 大 


小 - 全 局 变量 total _ lowmem 存放 当前 处 理 器 系统 可 以 访问 的 内 存 大 小 ,而 ram 参数 
存放 使 用 TLBIL 进行 虚实 地 址 转换 的 内 存 大 小 。 


/# Calculate CAM values */ 

_ tam) = 1UL << 2% ( 和 (an /2); 
if{(_ cam0 > cam max) 
__ecam0 = cam _ max; 


ram 一 一 __ cam0; 
if (ram) | 


_taml = 1UL << 2 * ( ilog2(ram) /2); 
if (caml > cam _ max) 
__ Taml = cam max; 


1am -一 _ caml; 
| 


if (ram) | 


cam2 = 1UL << 2 ¥* ( _ ioe2(ram) /2):; 
(cam > cam max) 


__ am = cam max; 


ram -= ”Carm2; 


printk( KERN _ INFO Memory CAM mapping: CAMO = %1ldMb, CAM] = %1dMb,” 
“CAM2= WldMb residual: %ldMb Nm ， 


_ am) >> 20,. caml >> 加，_ can2 >> 20， 


{total_lowmem 一 _ cam0 — _ caml 一 _ can?) >> 20); 
_ max_low_ memory = max_ low mem = _ cam + caml + _ cam2; 
| 


这 段 源 代码 首先 确定 全 局 变量 cam0， caml 和 cam2 的 大 小 ,之 后 根据 这 些 全 局 变 
量 的 值 ,调整 全 局 变量 max_ low_memory 和 max low_ mem 的 值 ， 

全 局 变量 cam0， caml 和 cam2 的 大 小 确定 后 ,调用 cam mapin _ ram 函数 进行 段 

式 映 里 。cam_ mapin _ ram 函数 的 源 代码 在 . /arch/powerpc/mm/fsl _booke _ mmu.c 文件 中 。 

其 源 代码 的 详解 如 下 : 


void _ init cam mapin _ ram(unsigned long cam0，unsigned long caml ， 
unsigned long cam2 ) 
| ‘ 


cam _ mapin_ ram 函数 一 共有 3 个 输入 参数 ,分 别 为 cam0,caml 和 cam2。 这 3 个 参数 分 
别 与 ”cam0,_ caml 和 cam2 变量 对 应 ,该 函数 没有 返回 值 。 在 该 函数 中 ,最 多 可 以 使 用 
E500 内 核 TLB1 中 的 3 个 Entry, 分 别 是 Entry 0,1 和 2, 将 Linux PowerPC 的 核心 空间 与 物理 
地 址 空间 进行 段 式 映射 。 
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settlbcam(0., KERNELBASE, PPC MEMSTART., 
cam0, _ PAGE KERNEL, 0); 

tbcam index 十 十 ; 

if (caml ) | 

tlbcam __ index ++ ; 

settlbcam( 1, KERNELBASE + cam0，PPC_ MEMSTART + cam0， 
caml, _PAGE KERNEL, 0):; 


| 

if (cam2) | 

tbcam _ index++ ; 

settlbeam(2, KERNELBASE + cam0 + caml, PPC_ MEMSTART + cam0 + caml ， 
cam2， PAGE_ KERNEL, 0); 

| 


| /x End cam mapin_ram */ 

在 cam _ mapin _ram 函数 中 , 宏 KERNELBASE( 其 值 为 0xC000-0000) 描 述 Linux 内 核 虚 
拟 地 址 的 基地 址 ,而 宏 PPC_ MEMSTART( 其 值 为 0x0000-0000) 描 述 Linux 内 核 物 理 地 址 的 
基地 址 ,因此 在 这 段 程序 中 ,最 多 可 以 将 Linux 系统 0xC000-0000 一 0xEFFF-FFFF 之 间 的 虚拟 
地 址 空间 ,映射 到 0x0000-0000 一 0x2FFF-FFFF 之 间 的 物理 地 址 空间 中 

Linux PowerPC 假定 处 理 器 系统 中 使 用 的 物理 地 址 空间 的 基地 址 为 0, 如 果 用 户 使 用 的 物 
理 地 址 空间 的 基地 址 不 为 0, 则 再 要 对 宏 PPC _ MEMSTART 进行 调整 。 

cam _ mapin _ ram 图 数 调用 settlbcam 国 数 ,操作 MAS 寄存 器 对 TLBI1 的 Entry 0,1 和 2 
进行 设置 。settlbcam 图 数 在 . /arch/powerpc/mm/fsl booke _ mmu.c 文件 中 ,其 源 代 码 详 解 
如 下 : 


void settlbcam( int index, unsigned long virt, phys_ addr _ t phys, 
unsigned int size, int flags, unsigned int pid) 
| 
unsigned int tsize, lz:; 

settlbcam 图 数 一 共有 6 个 参数 . 

(1) index 参数 。 该 参数 确定 settlbcam 函数 使 用 TLBI1 中 的 哪 一 个 Entry。 

(2) virt 参数 存放 用 来 建立 段 映射 关系 的 虚拟 地 址 。 

(3) phys 参数 存放 用 来 建立 段 映 射 关 系 的 物理 地 址 。 

(4) size 参数 用 来 存放 段 的 大 小 ,其 取 值 范围 与 具体 的 硬件 有 关 ,在 E500 V1 内 核 中 ,size 
参数 的 取 值 范围 为 4 KB 一 2$6 MB. 

(5) flags 参数 用 来 设置 TLB1 相应 Entry 的 属性 。 其 可 能 的 值 有 _ PAGE _KERNEL， 
PAGE _KERNEL _RO，PAGE _ IO， PAGE _ RAM 等 ,这 些 属性 主要 描述 Entry 中 的 
WIMG 和 PERMIS 参数 . 

其 中 较为 常用 的 属性 有 _PAGE_ IO，PACE RAM. _PAGE IO 属性 对 外 部 设备 进行 
措 述 ,Linux PowerPC 为 外 部 设备 空间 建立 虚实 映射 ,将 使 用 _PAGE _ IO 属性 ;_ PAGE _ 
RAM 对 主 存储 更 进行 描述 ,Linux PowerPC 为 主 存储 器 空间 建立 虚实 映射 ,将 使 用 _ PAGE 
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RAM 属性 。 
(6) pid 参数 与 MASI 寄存 器 中 的 TID 字段 对 应 。 


asm ("cntlzw %0.%1 :=r (lz) :Yr (size)): 
tsize = (21 一 lz) /2:; 


#ifdef CONFIG _ SMP 
if ((flags &@ _ PAGE NO CACHE) == 0) 
flags | = _ PAGE_ COHERENT:; 
并 endif 


这 段 程 序 首 先 将 输入 参数 中 的 size 参数 ,转换 为 MASI1 寄存 器 使 用 的 SIZE 字段 。 如 果 
Linux PowerPC 文 持 SMP 结构 ,是 flags 参数 中 WIMGE 字段 的 I 位 没有 使 能 , 则 将 M 位 置 为 
1。WIMGE 字段 的 说 明 见 3.3.3 节 


TLBCAMLindex]. MASD = MASO_TLBSELI) | MASO ESEL(index) | 
MASO_ NV{(index + 1); 

TLBCAMLindex].MAS1 = MASI _VALID | MAS1 _ IPROT | MASL _ TSIZE(tsize) | 
MAS] _ TID(pid); 


TLBCAM | index |. MAS2 = virt & PAGE MASK:; 


TLBCAM| index]. MAS2 | = (flags & _PAGE WRITETHRU) ? MAS2 W : 0; 
TLBCAM| index |. MAS2 |= (flags &@ _PAGE NO CACHE)? MAS2 1 :0; 
TLECAM| index]. MAS2 | = (flags & _ PAGE _ COHERENT) ? MAS2 M :0; 
TLBCAM | index|. MAS2 |= (flags 有 PAGE GUARDED) ? MAS? _ G:0; 
TLBCAM| index |. MAS2 |= (flags 有 _PAGE_ ENDIAN) ? MAS2 三 :0: 


TLBCAM | index ]. MAS3 = (phys & PAGE MASK) | MAS3 SX | MAS3 SR; 
TLBCAM| index|. MAS3 |= ((flags & _PAGE_ RW) 7? MAS3_SW :0): 


#ifnde{f CONEFIG KGDB /¥ want user access for breakpoints * / 
i{ (flags 有 PAGE _ USER) | 
TLBCAM | index |]. MAS3 | = MAS3 _ UX | MAS3 _ UR:; 
TLBCAM| index|. MAS3 | = ((flags & _PAGE RW) ? MAS3 UW ;0); 
| 
# else 


# endif 
这 段 程序 将 根据 flags, index, virt 和 phys 的 值 初始 化 E500 内 核 的 MAS0O .MAS1 、MAS2 
和 MAS3 寄存 器 . 


tbcam _ addrs| index |. start = virt; 
tlbcam _ addrs[ index | .limit = virt + size — 1; 
tlbcam _ addrs[ index | . phys = phys; 


| 
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loadcam _entry(index ) ; 
| 
这 段 程序 的 执行 流程 如 下 : 
@ 更 新 tlbcam addrs 数组 ,在 tlbcam addrs 数组 中 存放 着 Linux PowerPC 段 式 映射 的 虚 
实地 址 转换 关系 。 
@ 使 用 loadcam entry 函数 ,将 存放 在 TLBCAMLindex | 中 的 MAS0 ,MAS1, MAS2 和 
MAS3 寄存 器 写 人 对 应 的 TLB1 的 entry 中 

loadcam _ entry 函数 的 源 代 码 在 . /arch/powerpe/kernel/head _ fsl _ booke.S 文 件 中 。 

2. 使 用 段 式 映射 的 外 部 设备 地 址 空间 

在 Linux 系统 中 ,设备 驱动 程序 使 用 ioremap 函数 ,将 外 部 设备 的 物理 地 址 空间 转换 为 虚 
拟 地 址 空间 ,然后 使 用 虚拟 地 址 空间 对 外 部 设备 进行 访问 ，ioremap 函数 使 用 段 式 映 射 或 者 页 
式 映射 得 到 相应 的 虚拟 地 址 空间 。 如 果 ioremap 函数 希望 使 用 段 式 映射 获得 虚拟 地 此 空间 、. 
Linux PowerPC 必须 事先 使 用 io_block ”mapping 函数 ,建立 虚拟 地 址 与 物理 地 址 的 段 式 映 
射 

在 设备 驱动 程序 中 ,就 是 否 采 用 虚实 地 址 的 段 式 映射 引发 了 许多 争执。Linux PowerPC 
的 开发 团队 最 终 决 定 在 设备 驱动 程序 中 放弃 段 式 映射 , 即 不 再 使 用 io _block _mapping 国 数 
为 设备 驱动 程序 建立 虚拟 地 址 与 物理 地 址 之 间 的 段 式 映射 。 当 设备 驱动 程序 使 用 ioremap 男 
数 时 ,只 能 通过 页 式 映 射 获得 相应 设备 的 虚拟 地 址 。 

Linux PowerPC 的 开发 团队 取消 io block ”mapping 函数 的 主要 理由 是 ,Linux PowerPC 
内 核 的 维护 者 发 现 , 有 许多 用 户 滥用 io _block _ ”mapping 函数 ,从 而 使 得 一 个 完整 的 Linux 内 
核 空 间 被 分 割 得 支离破碎 ,这 对 Linux PowerPC 的 维护 十 分 不 利 ， 

而 且 有 些 系统 程序 员 并 没有 充分 理解 Linux 系统 内 存 子 系统 ,将 外 部 设备 的 物理 地 址 空 
间 错 误 地 映射 到 了 Linux 核心 空间 中 .在 Linux PowerPC 中 ,外 部 设备 可 以 使 用 的 Linux 核 
心 空间 是 指定 的 ,用 户 不 能 对 此 任意 选择 . 

目前 ,Linux PowerPC 的 维护 者 使 用 页 式 内 存 上 映射 管理 外 部 设备 的 物理 地 址 空间 。 但 是 ， 
如 果 用 户 需要 编写 较为 高 速 的 设备 驱动 程序 ,还 可 以 使 用 段 式 映射 管理 外 部 设备 使 用 的 物理 
地 址 空间 .为 此 Linux PowerPC 依然 保留 了 io _block _mapping 图 数 ， 

io_block mapping 函数 在 . /arch/powerpc/mm/pgtable _ 32.c 文 件 中 ,这 个 国 数 的 主要 
作用 是 ,将 外 部 设备 使 用 的 物理 地 址 空间 与 Linux PowerPC 核心 空间 建立 段 式 映射 。 在 E500 
内 核 中 ,TLBI1 一 共有 16 个 Entrv, 其 中 TLBI 的 Entry 0,1 和 2 已 经 被 Linux 核心 空间 的 段 式 
映射 使 用 ,因此 Linux PowerPC 可 以 使 用 剩余 的 13 个 Entry, 即 第 3 一 15 个 Entry 用 来 建立 虚 
实地 址 映射 。 当 这 些 Entry 全 部 使 用 完毕 后 ,io _ block _ mapping 函数 需要 使 用 页 式 管 理 方式 
建立 虚实 地 址 的 映射 。io -block _ mapping 函数 的 源 代码 详解 如 下 : 


A 
# Set up a mapping for a block of L/D. 
# virt, phys, size must all be page 一 aligned. 
* This should only be called before ioremap is called. 
黄 


pe 


void _ init ip _block mapping(unsigned long virt，phys addr _ t phys, 
unsigned int size, int flags) 
| 
Imt 1; 
io _block _ mapping 国 数 共有 4 个 参数 ,分 别 为 virt.phys.size 和 flags。 这 些 参数 与 settlb- 
cam 函数 的 相应 参数 一 致 。 在 这 段 源 代码 的 注释 中 可 以 发 现 .该 函数 需要 在 设备 驱动 程序 使 
用 ioremap 函数 之 前 被 调用 。 
有 许多 用 户 混 请 了 io _ block _ mapping 函数 和 ioremap 国 效 的 用 法 ,有些 用 户 甚至 认为 这 
两 个 国 数 并 没有 什么 本 质 区 别 。 实 际 上 这 两 个 函数 没有 任何 联系 ,io block mapping 吨 数 用 
来 建立 外 部 设备 虚实 地 址 之 间 的 段 式 映射 ,而 ioremap 函数 是 从 已 经 建立 了 虚实 地 址 映射 的 
空间 中 获得 虚拟 地 址 。 在 7.3.5 节 中 将 详细 介绍 ioremap 图 数 。 


if (virt > KERNELBASE && virt < ioremap _ bot) 
Iorermap _ bot = ioremap base = wirt: 
io _block _ mapping 国 数 首先 对 virt 参数 进行 参数 检查 。 程 序 员 使 用 io _ block mapping 
消 数 建立 虚实 地 址 的 映射 时 ,需要 注意 ,io _ block ”mapping 函数 使 用 的 虚拟 地 址 必须 大 于 
KERNELBASE 并 且 小 于 ioremap _ bot。 在 ioremap _ bot 和 ioremap base 变量 中 ,记载 着 设 
备 驱 动 程序 可 以 使 用 的 虚 存 的 基地 址 ,这 两 个 变量 的 详细 说 明 见 下 文 。 当 virt 参数 在 这 段 地 
址 空间 时 ,将 调整 ioremap _ bot 和 ioremap “base 变量 的 值 。 
#ifdef HAVE BATS 
* Usea BAT for this if possible... 
%/ 
和 
&@ (virt & (size — 1)) == 0 攻 (phys @ (size — 1)) == 0) | 
setbat(io_ bat_ index, virt, phys, size, flags); 
++io_ bat index; 
return; 
| 
#endif /* HAVE BATS */ 


这 段 程序 对 基于 603E 和 604E 的 PowerPC 处 理 咒 有 效 ,在 这 些 PowerPC 处 理 器 中 不 支 
持 TLB1 ,而 是 使 用 IBAT 或 者 DBAT。 该 类 处 理 器 使 用 setbat 函数 建立 虚实 地 址 的 段 式 映 
射 ，603E 内 核 和 604E 内 核 使 用 哈佛 结构 将 指令 BAT 和 数据 BAT 分 离 出 来 .而 在 E500 内 核 
中 ,Ll MMU 使 用 哈佛 结构 将 L1 指令 TLB 和 L1 数据 TLB 进行 分 离 . 
#Hifde{f HAVE TLBCAM 
六 对 
# Use a CAM for this if possible... 
A 
if (tbcam _ index < num_tlbeam entries Q&@& is_ power of 4(size) 
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监 训 (virt & (size = 1)) == 0 && (phys & (size — 1)) == 0) | 
settlbcam(tlbcam _ index, virt, phys, size, flags, 0); 

++ tlbecam _ index; 

TeturTls 


| 
#endif /* HAVE_TLBCAM */ 


基于 E500 内 核 的 Linux Power,HAVE_TLBCAM 为 1, 而 HAVE_ BATS 为 0 在 这 段 
羡 数 中 ,首先 检查 tlbcam _ index 参数 是 否 超过 系统 的 最 大 值 . 之 后 对 size,virt 和 phys 参数 进 
行 对 界 检查 。E500 内核 要 求 tlbcam _ index 参数 不 能 大 于 16. size 参数 为 4 字 节 对 界 ,而 virt 
和 phys 参数 以 size 参数 所 要 求 的 大 小 进行 对 界 。 当 参数 检查 通过 后 ,调用 settlbcam 函数 对 
E500 内 核 TLBI1 的 相应 Entry 进行 设置 以 完成 虚实 地 址 的 映射 ,然后 返回 。 

/# No BATs available, put it in the page tables. */ 
ior {i = 0; 1< Sze; 1 += PAGE SIZE) 
map_ pagelvirt + i, phys + i, flags); 
| /#* Endio_ block mapping */ 

如 果 在 TLB]1 中 没有 可 用 的 Entry,Linux PowerPC 使 用 map page 函数 建立 虚拟 地 址 到 

物理 地 址 的 页 式 映 射 


7.1.2 使 用 TLB0 进行 页 式 映射 


在 Linux 系统 中 , 绝 大 多 数 虚拟 地 址 空间 使 用 页 式 方 式 映射 。 
9 用 户 进 程 的 虚拟 地 址 空间 使 用 0x0000-0000 一 0xBFFF-FFFF 之 间 的 数据 区 域 ,这 段 虚 
拟 地 址 空间 使 用 页 式 映 射 方式 。 值 得 注意 的 是 ,在 Linux 系统 中 ,每 一 个 用 户 进 程 都 有 
属于 目 己 的 3GB 空 间 , 这 些 空间 彼此 独立 。 因 此 在 Linux 系统 中 ,用 户 进程 使 用 虚拟 
地 址 空间 的 大 小 为 3 GBXx 进程 数 . 
9 外 部 设备 使 用 的 虚拟 地 址 空间 也 使 用 页 式 方式 进行 映 喘 。 在 7.1.1 方 中 , 我 们 讲述 过 
外 部 设备 的 段 式 映射 方式 - 但 是 在 绝 大 多 数 情 况 下 ,Linux PowerPC 使 用 页 式 上 映射 方 
式 管 理 外 部 设备 使 用 的 虚拟 地 址 空间 。 
基于 E500 内 核 的 Linux PowerPC ,使 用 TLB0 和 系统 页 表 完 成 虚实 地 址 的 转换 ,这 种 虚 
实地 址 转换 也 被 称 为 页 式 映 射 。 其 中 TLB0 存放 在 E500 内 核 中 ,而 系统 页 表 存 放 在 主 存储 器 
中 。 在 E500 V1 内 核 中 .TLB0 中 一 共有 256 个 Entry, 其 中 每 个 Entry 只 能 映射 4KB 大 小 的 
页 面 ， 因 此 在 TLBO0 中 最 多 只 能 保存 256x4 KB=1 MB 大 小 的 虚拟 地 址 空间 ， 
对 于 32 位 PowerPC 处 理 需 ,TLB0 能 直接 映射 的 虚拟 地 址 空间 远 远 不 够 。 因 此 处 理 器 访 
问 页 式 映 射 的 虚拟 地 址 空间 时 ,将 不 可 避免 地 出 现 TLB Miss 异常 。 所谓 TLB Miss 异常 是 指 
处 理 忌 访问 的 虚拟 地 址 空间 不 在 TLB0 的 Entry 中 。E500 内 核对 数据 空间 访问 产生 的 TLB 
Miss 被 称 为 数据 TLB Miss, 简称 为 DTLB Miss; 对 程序 空间 访问 产生 的 TLB Miss 被 称 为 程序 
TLB Miss, 人 简称 为 ITLB Miss 
在 E500 内 核 中 ,ITLB Miss 或 者 DTLB Miss 出 现时 ,将 引发 Instruction TLB Error Inter- 
rupt 异常 或 者 Data TLB Error Interrupt 异常 。 在 这 些 异 常 处 理 程序 中 ,Linux PowerPC 查找 
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系统 页 表 ,获得 与 被 访问 虚拟 地 址 对 应 的 物理 地 址 ,并 同步 TLB0 

读者 可 以 这 样 简单 理解 TLB0: 在 Linux PowerPC 中 ,TLB0 作为 系统 页 表 的 Cache, 使 用 
页 式 方式 进行 虚实 地 址 映射 的 虚拟 地 址 , 当 发 生 TLB0 Miss 时 ,首先 在 TLB0 这 个 “Cache "中 ， 
查找 与 虚拟 地 址 对 应 的 物理 地 址 ,如果 在 TLB0 中 没有 找到 这 个 映射 关系 , 则 在 系统 页 表 中 继 
续 查 找 这 个 遇 射 天 系 ,之 后 同步 页 表 与 这 个 Cache。 

1. Linux PowerPC 的 系统 页 表 

Linux PowerPC 进入 Instruction TLB Error [Interrupt 异 症 或 者 Data TLB Error Interrupt 
异常 人 处 理 程 序 时 ,将 根据 虚拟 地 址 查找 系统 页 表 。 在 Linux 系统 中 ,所 有 使 用 页 式 映 射 的 物理 
内 存 被 分 为 一 个 个 固定 大 小 的 空间 进行 管理 ,对 于 32 位 处 理 规 ,这 个 空间 的 大 小 为 4KB. 
Linux PowerPC 使 用 pte tt 结构 ,描述 这 个 4KB 大 小 的 虚拟 地 址 空间 与 物理 地 址 空间 之 间 的 
映射 关系 。 

为 了 实现 这 种 映射 天 系 ,Linux 系统 将 虚拟 地 址 分 解 为 PGD(Page Global Directory),PUD 
(Page Upper Directory) , PMD( Page Middle Directory) .PTE(Page Table Entry) 和 Offset 共 5 
个 字段 .Linux 系统 通过 虚拟 地 址 的 PGD、PMD 和 PTE 字段 计算 出 该 虚拟 地 址 使 用 的 物理 
页 面 pte_ +t, 然后 从 这 个 pte _t 结构 中 获得 该 虚拟 地 址 使 用 的 物理 地 址 。 

在 Linux 系统 中 ,使 用 了 -- 些 宏 描 述 虚 拟 地 址 PGD、PUD、PMD 和 PTE 字段 的 一 些 属性 ， 
这 些 宏 的 定义 在 .Ainclude/asm-powerpc/pgtable.h 文件 中 。 在 Linux 2.6.20 内 核 中 ,没有 完 
全 移 除 .vinclude/asm-ppc 目录 下 的 文件 ,Linux PowerPC 还 需要 使 用 该 目录 中 的 革 些 文件 。 

在 ./include/asm-powerpc/pgtable.h 文件 中 ,再 要 对 CONFIG “PPC64 条 件 进行 判断 ,如 
果 该 杀 件 为 假 , 即 当前 Linux PowerPC 是 针对 32 位 PowerPC 处 理 紫 时 ,将 引用 ,Ancludev 
asm-ppeApgtable.h 文件 .其 代码 如 下 : 

#ifndef _ASM POWERPC PGTABLE _H 
Hdefine ASM POWERPC PGTABLE H 
#ifdef _ KERNEL _ 


#ifndef CONFIG_ PPC64 
#include < asm-ppc/pgtable. h> 
Linux PowerPC 与 PGD 和 PMD 定义 有 关 的 宏 在 . /include/asm-ppc/pgtable.h 文件 中 ,与 
PTE 和 PAGE 有 关 的 宏 分 别 在 .Ainclude/asm-powerpc/page _ 32.h 和 . /include/asm-powerpe/ 
page.h 文件 中 。 这 些 宏 如 表 7-1 所 示 


表 7-1 与 系统 页 表 有 关 的 宏 








名 称 值 | 名 称 值 
PAGE _ SHIFT 12 PMD _ SIZE 0x0040-0000 
PAGE._ NASK OxFFFF-FVOOO | PND _ MAR | OxFFCO-0000 






PAGE _ SIZE | Ux0000-1000 PGDIR _ SHIFT 22 
PIE._ SHIFT 10 | POGDIR _ SIZE 0x0040-0000 
PMD _ SHIFT | 22 PODIR _ MASEK. OxFFCO-0000 
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这 些 宏 与 Linux PowerPC 虚拟 地 址 之 间 的 关系 如 图 7-1 所 未 。 


PGDIR_SHIFT 
PMD SHIFT 
PAGE SHIFT 
oo 


32 位 的 虚拟 地 址 PGD PMD PTE 


PAGE MASK PAGE SIZE 
PMD MASK PMD SIZE 
PGDIR MASK PGDIR SIZE 


图 7-1 虚拟 地 址 与 PGD,PMD,PTE 相关 宏 的 关系 


如 上 图 所 示 , 在 32 位 PowerPC 处 理 器 中 ,Linux PowerPC 虚拟 地 址 的 PGD 字段 的 长 度 为 
32-PGDIR _ SHIFT= 10;PMD 字段 的 长 度 为 PGDIR _ SHIFT- PMD _ SHIFT=0, 由 此 可 见 ， 
对 于 32 位 PowerPC 处 理 器 ,Linux PowerPC 的 虚拟 地 址 不 支持 PMD 字段 ;PTE 字段 的 长 度 
为 PMD_SHIFT- PAGE _ SHIFT= 10;Offset 字段 的 长 度 为 PAGE _ SHIFT= 12。 

Linux PowerPC 将 32 虚拟 地 址 分 解 为 10 位 的 PGD,10 位 的 PTE 和 12 位 的 Offset 的 主 
要 目的 是 减少 空间 的 浪费 。 在 Linux 系统 中 ,一 个 普通 进程 可 以 使 用 3 GB 虚拟 地 址 连续 的 空 
间 ,但 是 绝 大 多 数 进程 并 不 需要 这 么 大 的 虚拟 内 存 。 因 此 在 虚拟 地 址 连续 的 3 GB 进程 空间 中 
不 可 避免 地 会 有 许多 空洞 ,为 此 Linux 系统 采用 二 级 映射 方式 使 用 虚拟 地 址 到 物理 地 址 的 转 
换 以 避 开 这 些 空洞 ,提高 内 存 的 利用 率 。 

在 Linux 系统 中 ,每 一 个 进程 都 有 自己 的 PGD 表 ,PGD 表 的 每 一 个 Entry 与 4MB 虚拟 内 
存 相 对 应 。 如 果 与 PGD 表 Entry 相对 应 的 虚拟 地 址 内 存 没 有 被 使 用 , 则 将 PGD 表 中 的 Entry 
置 为 空 , 从 而 可 以 节省 一 部 分 空间 ;和 否则 PGD 表 的 Entry 指向 一 个 PTE 表 。PTE 表 的 每 一 个 
Entry 由 两 部 分 组 成 :一 是 与 虚拟 地 址 页 面 (Virtual Page Number, VPN) 对 应 的 物理 地 址 页 面 
(Real Page Number,RPN) ;二 是 对 此 物理 页 面 进行 描述 的 属性 。 

在 Linux 系统 中 ,每 一 个 用 户 进程 都 有 自己 的 PGD 基地 址 ,存放 在 相应 进程 描述 符 的 
mm 一 >pgd 中 ;由 5.1.1 节 所 示 ,Linux 核心 进程 的 mm 参数 为 空 ,因此 核心 进程 的 PGD 基地 
址 为 NULL。Linux 系统 规定 ,核心 进程 使 用 swapper _ pg _ dir 作为 PGD 基地 址 。 

在 Linux 系统 中 ,虚拟 内 存 地 址 采用 下 列 步 又 进行 页 式 映射 。 本 书 再 次 提醒 读者 注意 ,如 
果 一 个 虚拟 地 址 在 TLB0 中 命中 , 则 从 TLBO 中 直接 获得 其 需要 的 物理 地 址 ,而 不 用 使 用 下 列 
步 又。 下 列 步骤 在 Linux PowerPC 出 现 ITLB Miss 或 者 DTLB Miss 时 使 用 : 

(1) Linux PowerPC 首先 需要 通过 mm 一 pgd 或 者 swapper _ pg _ dir 和 当前 虚拟 地 址 的 
PGD 字段 获得 与 该 地 址 对 应 的 pgd _t 结构 。 

(2) 然后 通过 pgd _t 结 构 与 虚拟 地 址 的 PTE 字段 获得 与 该 地 址 对 应 的 pte _t 结构 。 

(3) 在 Linux PowerPC 中 ,每 一 个 物理 页 面 使 用 一 个 pte _t 结构 。 在 pte _t 结构 中 ,存放 
与 虚拟 地 址 相对 应 的 物理 页 表 基 址 指针 和 对 该 物理 页 表 的 描述 。 

(4) 使 用 pte _t 表 的 VPN 字段 和 虚拟 地 址 的 Offset ,通过 计算 ,获得 与 虚拟 地 址 相对 应 的 
物理 地 址 。 

以 上 步骤 的 示意 如 图 7-2 所 示 。 
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mm 一 pgd 


swapper dir 
PPeI_p8_ physical address 


Attribute 





pte_val(pte) 
图 7-2 页 式 地 址 映射 示意 图 


在 基于 E500 内 核 的 Linux PowerPC 中 ,使 用 长 整 型 long 描述 pte _t 结构 ， pte _t 结构 由 
两 部 分 组 成 ,物理 页 面 的 基地 址 和 该 物理 页 面 的 属性 ,其 中 物理 页 面 的 基地 址 占用 高 20 位 ,而 
物理 页 面 的 属性 占用 低 12 位 ,Linux PowerPC 的 pte _t 结构 如 下 所 示 : : 


0~19 20 21 22 23 24 25 26 27 28 29 30 31 
RPN B11 B10 B9 B8 B7 6 B5 B4 B3 B2 Bl BO 


pte _t 结 构 中 每 一 个 字段 或 者 位 的 含义 如 下 所 示 : 

@ RPN 字段 占用 pte _t 的 第 0 一 19 位 ,描述 物理 页 面 的 基地 址 。 

e B11，PAGE _ DIRTY 位 。 为 1 时 表示 当前 物理 页 面 刚 刚 被 改写 。 

9 B10，PAGE _ WRITETHRU 位 。 该 位 与 3.3.3.1 节 中 WIMG 字段 的 W 位 对 应 。 

e B9，PAGE _ NO_ CACHE 位 。 该 位 与 3.3.3.1 节 中 WIMG 字段 的 I 位 对 应 。 

e B8,，PAGE_ COHERENT 位 。 该 位 与 3.3.3.1 节 中 WIMG 字段 的 M 位 对 应 。 

@ B7,，PAGE_ GUARDED 位 。 该 位 与 3.3.3.1 节 中 WIMG 字段 的 G 位 对 应 。 

e@ B6，PAGE_ ENDIAN。 该 位 与 3.3.3.1 节 中 WIMG 字段 的 下 位 对 应 。 

9 BS3，PAGE_ HWEXEC。 该 位 为 1 时 表示 该 页 面 可 以 用 作 程序 空间 ,该 位 与 3.1.2 节 


中 的 SX 和 UX 位 相关 。 
e B4,，，PAGE _ RW。 该 位 为 1 时 表示 该 页 面 可 读 写 ,该 位 是 一 个 软件 位 ,而 B3 位 与 硬件 
直接 相关 。 


e B3，PAGE_ HWWRITE。 该 位 为 1 时 表示 该 页 面 可 读 写 ,该 位 与 3.1.2 节 中 的 UW， 
UR,SW 和 SR 位 相关 。 

e B2，PAGE _ ACCESSED。 该 位 为 1 时 表示 该 页 面 正在 使 用 。 

e B1，PAGE_ USER。 该 位 为 1 时 表示 该 页 面 被 在 用 户 空 间 的 进程 使 用 。 

9 BO0，PAGE _ PRESENT。 该 位 为 1 时 表示 该 页 面 在 物理 内 存 而 不 是 在 对 换 区 中 。 

在 Linux 系统 中 ,还 有 一 个 page 结构 也 用 来 描述 这 个 物理 页 面 。 但 是 pte _t 结构 和 page 
结构 的 含义 完全 不 同 ,pte _ +t 结构 实现 虚拟 地 址 的 页 式 映射 ,其 中 存放 着 与 虚拟 地 址 对 应 的 物 
理 地 址 和 与 MMU 有 关 的 属性 描述 ;而 page 结构 存放 着 物理 页 面 的 描述 信息 ,即便 是 采用 段 
式 映射 的 虚拟 地 址 空间 也 有 一 个 page 结构 ,page 结构 被 称 为 页 表 描 述 符 。 本 书 将 在 下 文 详细 z 
介绍 page 结构 。 
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2. Linux PowerPC 系统 页 表 的 创建 

由 上 文 可 知 ,Linux PowerPC 的 系统 页 表 由 三 部 分 组 成 ,分 别 为 PGD 表 ,PGD 表 和 PTE 
表 。 在 Linux 系统 中 ,核心 进程 和 所 有 普通 进程 都 有 自己 的 一 套 系 统 页 表 ， 

Linux 系统 核心 进程 使 用 swapper pg _ dir 作为 PGD 的 基地 址 ,该 值 的 定义 如 下 所 示 : 


. data 
-alipn 12 
.Elobl sdata 
sdata: 
-globl empty _ zero_ page 
empty _ zero_ page: 
.space 4090 
globl swapper_ pg_ dir 
swapper pg _ dir: 
由 上 述 程 序 得 知 ,swapper _ pg _ dir 的 大 小 为 4096B, 可 以 摘 述 1024 个 PGD 表 Entry。 当 
Linux 系统 被 加 载 后 ,该 段 区 域 所 使 用 的 物理 内 存 被 静态 分 配 . 
应 用 程序 的 PGD 表 基 地 址 在 进程 描述 符 的 mm 一 > pgd 参数 中 保存 ,该 参数 在 进程 创建 
时 ,由 copy_ mm 一 dup__ mm 一 mm _ init 一 >mm _ alloc_ pgd 国 数 初始 化 。 
mm _ alloc _ pgd 图 数 调 用 pgd__alloc 函数 ,为 当前 进程 的 PGD 表 分 配 空 间 , 并 将 PGD 表 
的 基地 址 赋 给 mm 一 >pgd。pgd _ alloc 函数 在 . /arch/powerpc/mm/pgtable ”32.c 文件 中 ,该 
遇 数 调用 get _ free_ pages 从 Linux 系统 的 Buddy System 中 获得 当前 进程 PGD 表 所 和 需要 的 
空间 ,其 源 代码 如 下 所 示 : 


pgd_+t * pgd_ alloc(struct mm _ struct * mm) 
pgd _t * ret; 
ret = (pgd_t *) get_free_ pages(GFP KERNEL|_ GFP_ ZERO, PGDIR_ ORDER); 
LELLITIL Tels 


Linux 系统 在 创建 进程 时 , 仅 需 要 申请 PGD 表 所 需 的 物理 空间 ,并 不 会 初始 化 PGD 表 中 
的 Entry, 也 不 会 建立 相应 的 PTE 表 . 

这 种 做 法 主要 基于 两 种 考虑 :一 是 为 了 加 快 进程 创建 的 速度 ;二 是 在 进程 创建 时 无 法 确定 
需要 初始 化 哪些 PGD 和 PTE 表 ，Linux 系统 采用 了 On-Demand 条 略 , 即 "用 时 创建 "的 策略 ， 
建立 进程 的 PGD 和 PTE 表 。 

在 Linux 系统 中 ,如 果 进 程 使 用 的 虚拟 地 址 没有 在 TLB0 中 命中 ,将 启动 Instruction TLB 
Error Interrupt 异常 或 者 Data TLB Error Interrupt 异常 处 理 程序 ,在 PTE 表 中 搜索 合适 的 
Entry ,如果 在 TLB Error Interrupt 异常 程序 中 ,仍然 没有 获得 合适 的 Entry, 则 创建 PTE 表 的 
相应 Entry ,或 者 从 Linux 系统 的 SWAP 区 中 获得 合适 的 Entry。 

当 用 户 程序 第 一 次 访问 使 用 页 式 映射 的 虚拟 地 址 时 ,会 进入 Data Storage Interrupt 寻常 
或 者 Instruction Storage Interrupt 异常 处 理 程序 创建 PTE 表 的 相应 Entry, 因为 此 时 在 TLB0O 
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中 不 会 有 该 页 面 对 应 的 信息 。Linux PowerPC 将 会 在 Data Storage Interrupt 异常 或 者 Instruc- 
tion Storage Interrupt 异常 处 理 程序 调用 ”handle mm _ fault 函数 ,该 函数 将 建立 PTE 表 相 
应 的 Entry, 其 源 代码 如 下 所 示 : 


Int _ handle_ mm fault( struct nm strict * Ti Struct wm area struct * vma, 


unsigned long address, int write access) 


ped _t * pgd; 
pud _t * pud; 
pmd _ +t * pmd; 
pte_ 1 * pte; 


_ set _ current state( TASK RUNNING); 
count vm_ event(PGFAULT): 


if (unlikely(is_ vm _ hugetlb _ page( vma))) 


return hugetlb _ fault(mm, vma, address, write_ access):; 


_ handle_ mm _ fault 函数 首先 将 当前 进程 状态 设置 为 TASK _RUNNING, 然 后 进行 一 
此 参数 检查 ， 


ped = pgd _ offset(mm, address); 
pud = pud _ alloc(mm, pgd, address); 
i{ (1pud) 
return VM FAULT OOM; 
pmd = pmd _ alloc(mm, pud, address); 
if (1pmd) 
return VM FAULT OOM:; 
pte = pte_ alloe_ map(mm, pmd, address); 
if (lpte) 
retum VM _ FAULT OOM; 


retum handle_ pte_ fault(mm, vma, address, pte, pmd, write_ access); 
| 


这 段 程序 首先 使 用 pgd _ offset 函数 ,确定 当前 地 址 address 使 用 的 pgd 表 项 ,之 后 使 用 pte 
alloc _map 困 数 ,在 Buddy System 中 分 配 一 个 PTE 表 , 其 大 小 为 4KB.。 在 基于 32 位 Power- 
PC 处 理 关 的 Linux PowerPC 中 ,PUD 和 PMD 表 没 有 被 使 用 .此 时 pud _alloc 函数 的 返回 值 为 
pgd, 而 pmd _ alloc 函数 的 返回 值 为 pud。 在 这 段 函 数 中 pgd,pud 和 pmd 三 个 参数 的 值 相同 . 
最 后 该 程序 调用 handle _ pte _ fault 函数 处 理 相 应 的 TLB Miss, 该 函数 的 详细 描述 见 本 书 的 
1.959.216 
3. Data TLB Error Interrupt 异常 处 理 
E500 内 核对 使 用 页 式 映射 的 虚拟 地 址 进行 访问 时 .如 果 这 个 虚拟 地 址 没有 在 TLB0 中 命 
中 ,E500 内 核 会 产生 TLB Error Interrupt 异常 。 如 果 这 个 虚拟 地 址 属于 程序 空间 则 产生 In- 
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struction TLB Error Interrupt 异常 ;如 果 这 个 虚拟 地 址 属于 数据 空间 则 产生 Data TLB Error 
Interrupt 异常 。 
在 Linux 系统 中 ,lnstruction TLB Error Interrupt 异常 和 Data TLB Error Interrupt 异常 的 
处 理 较为 相似 ,本 书 只 介绍 Data TLB Error Interrupt 异常 。 在 Linux PowerPC 进入 Data TLB 
Error Interrupt 异常 处 理 程 序 之 前 ,E500 内 核 将 表 7-1 所 示 的 寄存 器 由 硬件 进行 保存 ,以 加 快 
处 理 速 度 。 
表 7-2 ”E500 内核 进入 TLB Miss 异常 后 自动 保存 的 寄存 器 










NSRn 


寄存 器 名 称 更 新 后 的 值 | 
SRRO | 保存 被 中 上 指令 的 有 效 地 址 ,以 便 异常 处 理 结 束 后 返 加 
SRR1 保存 发 生 中 断 时 的 MSR 寄存 器 的 值 ,以 便 异 党 处 理 结束 后 恢复 现场 
MSR | GE,ME 和 DE 位 不 变 , 其 他 位 清 零 | 
DEAR 保存 引发 Data TLB Error Interrupt 异常 的 数据 有 效 地 址 
es 区 当 存 储 器 写 操作 ,dcbi 或 者 dbz 指令 引发 Data TLB Error Interrupt 异常 时 ,该 寄存 器 的 
ST 位 将 置 为 1 并 将 该 寄存 器 的 其 他 位 消 坟 
| TLBSEL | 赋值 为 保存 在 MSR4 寄存 器 中 TLBSE1LD 子 段 
Eee 展 人 TLBSEL 为 0, 即 选择 TLB0 时 将 ESEL 字段 赋值 为 TI B 
Nv 如 果 TLBSEL 为 0, 将 NV 赋值 为 ! TLBOLNV] 
or | 0o 1 ee 
TID[0.7] | ”赋值 为 保存 在 MSR4 寄存 器 中 TIDSELD 字段 
7s | ”赋值 为 当前 MSR 寄存 器 的 DS 位 
TSIZE[0.3; 赋值 为 保存 在 MSR4 寄存 器 中 TSIZED 字段 


a 


存放 引发 Data TLB Error Interrupt 异常 的 数据 的 有 效 地 址 EPN 


鞭 值 为 保存 在 存放 在 MSR4 寄存 器 中 的 X0D, XI1D, WD, ID, MD, 
LM, GE GD, ED 


EPN| 32:51. 





XD,X1,W, 


RPN[32.51 该 中 断 处 理 结束 时 将 从 系统 页 表 中 获得 对 应 的 RPN 
PERMIS U 
SPID PIDO 和 
SAS | ”MSR 寄存 器 的 DS 位 


由 上 表 所 示 , Linux PowerPC 进行 Data TLB Error Interrupt 异常 处 理 之 前 ,E500 内 核 已 
经 将 MSRn 中 的 许多 寄存 器 由 硬件 完成 赋值 ,从 而 有 效 提高 了 Data TLB Error Interrupt 寞 第 
处 理 的 效率 。 基 于 E500 内 核 的 Linux PowerPC 通过 以 下 语句 ,将 Data TLB Error Interrupt 
异常 处 理 程序 的 人 口 地 址 设置 到 IVPR 和 IVOR13 的 寄存 器 中 。 

SET IVOR(13,DataTLBError); 

当 Data TLB Error Interrupt 异常 发 生 时 , Data TLB Error [nterrupt 异常 处 理 程序 将 在 
IVPR 和 IVOR13 寄存 器 指定 的 地 址 处 执行 。 在 Linux PowerPC 中 ,Data TLB Error Interrupt 
异常 处 理 程序 为 DataTLBError 函数 。 

DataTLBError 函数 的 定义 在 . /arch/powerpc/kernel/head _ fsl _ booke.S 文件 中 。 当 外 部 
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中 断 事 件 发 生 时 ,Linux PowerPC 将 从 DataTLBError 函数 开始 执行 ,对 Data TLB Error Inter- 
rupt 寞 常 进行 处 理 ， DataTLBError 函数 的 主要 代码 如 下 : 


A Data TLB Error Interrnupt 源 代码 片段 1 */ 
START _ EXCEPTION(DataTLBError) 
mtspr SPRN _ SPRGO, rl10 /A¥ Save some working registers * / 
mtspr SPRN _ SPRG]1, rl1]l 
mtspr SPRN _ SPRG4W, rl2 
mtspr SPRN _ SPRGSW, rl3 
mifer rll 
mtspr SPRN SPRGTIW, rl1l1 
mfspr ri10, SPRN DEAR /¥ Get faulting address * / 


这 段 程序 的 执行 流程 如 下 ; 

e 程序 首先 将 寄存 器 r10, rll, rl2 和 r13 分 别 保存 在 SPRG0, SPRG1, SPRG4W 和 
SPRGSW 寄存 器 中 。 注 意 , 在 DataTLBError 函数 中 ,不 能 使 用 堆栈 保留 任何 寄存 器 和 
临时 变量 。 

9 将 CR 寄存 器 的 值 存 人 SPRG7W 寄存 器 中 ， 

e 将 DEAR 寄存 器 中 的 数值 赋值 到 rl0 寄存 器 中 ,从 而 获得 引发 Data TLB Error lnter- 
rupt 异 贡 的 数据 有 效 地 址 。 


/# Data TLB Error Interrupt 源 代 码 片 段 2 */ 
lis rill, TASK SIZE@h 
orl rll, rll, TASE SIZE@!I 
cmplw 5, r10, ril 


blt S53 
lis rll, swapper _ pg _ dir@h 
Ori rll, rll, swapper _ pg _ dir(@] 


mispr rl2,SPRN MASI] A¥ Set TIDt 0 */ 
rlwirnm rl2,r12,0,16,]1 
mtspr SPRN MASI ,rt2 


b df 


/xx Get the PGD for the current thread *¥ / 
3: 
mfspr rlli.SPRN SPRG3 
Fwz ri1,PGDIR(r11) 

这 段 程序 的 执行 流程 如 下 : 

e 比较 DEAR 寄存 器 和 TASK _ SIZE 参数 。 并 根据 比较 结果 ,判断 引发 当前 Data TLB 
Error Interrupt 异常 的 数据 (该 数据 保存 在 DEAR 寄存 器 中 ) 是 来 自 Linux 办 核 空间 还 
征用 户 空 间 。TASK _ SIZE 的 值 为 0xC0000000, 如果 DEAR 寄存 器 的 值 小 于 TASK 
SIZE, 则 表示 Linux 系统 在 访问 用 户 空间 时 引发 了 Data TLB Error Interrupt 异常 ,否则 
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表示 Linux 系统 在 访问 核心 空间 时 引发 了 Data TLB Error Interrupt 异常 。 

e 获得 当前 进程 使 用 的 PGD 表 基 地 址 ,并 保存 到 r11 寄存 器 中 。 如 果 对 核心 空间 的 数据 
进行 访问 时 ,引发 了 Data TLB Error Interrupt 异常 , 则 将 swapper _pg dir 赋值 到 r11 
寄存 天 中 ,否则 将 当前 进程 描述 符 的 thread.pgdir 参数 赋值 到 rll 寄存 器 中 。Linux 
PowerPC 在 进行 进程 的 上 下 文 切换 时 ,将 保存 在 进程 描述 符 mm 一 pgd 参数 的 PGD 表 
基地 址 赋值 于 当前 进程 描述 符 的 thread .pgdir 参数 。 

Z# Data TLB Error Interrupt 源 代码 片段 3 */ 
4: 
FIND _ PTE 


这 上 段 程序 根据 PGD 表 的 基地 址 ,调用 FIND _ PTE 函数 ,寻找 引发 Data TLB Error Inter- 


rupt 寞 第 的 虚拟 地 址 所 对 应 的 PTE 表 , 并 在 这 个 PTE 表 中 ,找到 与 此 虚拟 地 址 对 应 的 Entry。 
FIND _ PTE 函数 主要 用 来 完成 图 7-2 所 示 的 算法 . 

FIND _ PTE 函数 共有 两 个 输入 参数 ,寄存 器 rl0 和 rl11。 寄 存 器 r10 存放 引发 Data TLB 
Error Interrupt 异常 的 虚拟 地 址 ,rl1l 寄存 器 存放 当前 进程 PGD 表 的 基地 址 。 在 该 函数 返回 
时 ,将 PTE 表 的 相应 Entry 的 数值 存放 到 rll 寄存 器 中 。FIND _ PTE 函数 的 源 代码 如 下 . 


# define FIND _ PTE \\ 
rhwimi rl11, ri0, 12, 20, 29; 


A/% Create LI (pedir/pmd) address */ \ 
lwz rll, O(r11):; /x Get Ll entry ¥*/ 

riwinm. rl2, rill, 0, 0, 19; /sx Extract L2 (pte) base address */ \ 
beq 2f; /¥ Bailif no table */ 和 

rwimi r12, ri0, 22, 20, 29:; /3x Compute PTE address * / \ 

lwz rll, OQ(rl2); A/¥ Get Linux PTE */ 


这 段 程 夺 的 执行 流程 如 下 : 

8 自 完 通过 计算 ,从 PGD 表 中 获得 与 虚拟 地 址 对 应 的 Entry, 并 将 此 Entry 中 的 数据 保存 
到 rll 寄存 器 中 。 

@ 从 rll 寄存 右 中 提取 相应 PTE 表 的 基地 址 ,并 放 人 rl2 寄存 器 中 。 

e 如 果 PTE 表 的 基地 址 为 空 , 则 表示 当前 PTE 表 没 有 被 创建 ,此 时 TLB Error Interrupt 
异 并 处理 程序 将 无 法 完成 对 虚拟 地 址 的 映射 。 此 时 程序 将 跳 转 到 2{f, 即 data _ access 函 
数 中 ,建立 PTE 表 , 然 后 对 虚拟 地 址 进行 映射 。 

@ 通过 计算 在 PTE 表 中 ,获得 与 虚拟 地 址 对 应 的 Entry. 并 将 指向 该 Entry 的 指针 赋予 
rl2 寄存 器 ， 

e 将 保存 在 rl2 寄存 器 中 数据 存放 到 rll 寄存 器 中 。 从 而 得 到 PTE 表 的 相应 Entry。 

DataTLBError 函数 通过 FIND _ PTE 函数 ,获得 PTE 表 的 相应 Entry 后 ,将 继续 执行 以 


下 程序 : 


《x Data TLB Error Interrupt 源 代码 片段 3 */ 
andi. rl3, rll, _ PAGE PRESENT /* ls the page present? */ 
beg 2f /A/# Bail if pot present */ 
这 段 程序 首先 判断 r11 寄存 器 的 _ PAGE _PRESENT 位 是 否 有 效 。 如 果 无 效 , 则 当前 虚 
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拟 地 址 对 应 的 物理 地 址 页 面 不 在 物理 内 存 , 而 是 在 对 换 区 中 ,此 时 程序 需要 跳 转 到 2f 中 执行 
data _ aceess 图 数 。data _ access 国 数 将 在 对 换 区 中 的 数据 ,搬移 到 物理 内 存 中 。 


tlb 


A# Data TLB Error Interrupt 源 代 码 片 段 4 */ 


ol Till, Tl, PAGE ACCESSED 

stw rll, PTE FLAGS OFFSET(ri2) 
A¥ Jump to common tb load * / 

b finsh_tlb_ load 


这 上段 程序 首先 标记 当前 物理 页 面 正 在 被 使 用 ,然后 跳 转 到 finish _ tlb _ load 函数 ,finish _ 
load 区 数 的 主要 作用 是 更 新 TLB0 中 的 相应 Entry, 完 成 TLB Error Interrupt 异常 人 处理 ， 
finish _ tlb _ load 函数 有 以 下 几 个 输入 参数 : 

@ 宁 存 句 T10, 该 寄存 器 存放 引发 Data TLB Error Interrupt 异常 的 虚拟 地 址 。 

e@ 寄 存 器 rl11 ,该 寄存 器 存放 与 虚拟 地 址 对 应 的 物理 地 址 页 面 和 相关 的 属性 。 

9 CR 寄存 器 的 CR5 字段 ,该 字段 的 LT 位 用 来 表示 引发 Data TLB Error Interrupt 异常 的 
虚拟 地 址 是 属于 Linux 核心 空间 还 是 用 户 空间 。 当 LT 位 为 1 时 表示 该 虚拟 地 址 属于 
用 户 空 间 ,否则 该 虚拟 地 址 属于 Linux 核心 空间 ， 

e 寄存 器 MAS0O .MAS1 .MAS2 和 MAS3, 这 几 个 寄存 器 在 进入 Data TLB Error Interrupt 
异常 时 被 E500 内 核 自 动 保存 ， 

该 函数 的 详解 如 下 : 


finish_ tb _ load: 


A 
# We set execute, because we don t have the granularity to 
* properly set this at the page level (Linux problem). 
# Many of these bits are software only. Bits we don t set 
# here we (properly should) assume have the appropriate value. 
Ld 
mfspr rl2, SPRN _ MAS2 rlwimi rl2, rll, 26, 27, 31 /* extract WIMGE from pte * / 
mtspr SPRN MAS2, rl2 
bge 3, 1f 


A/¥ isuser addr ¥*/ 

andi. rl2, rll, (_ PAGE USER| PAGE HWWRITE | __ PAGE_ HWEXEC) 
andi. ri0, rll, PAGE USER /A* Tes for PAGE USER x*/ 

srwi rl0, rl2, 1 

or rl2, rl2, rl /*¥ Copy User perms into supervisor */ 

iseleq rl12, 0, rl2 

bi :2 

/A¥ iskermel addr * / 


l: riwinm rl2, rll, 31, 29, 29 /x Extract PAGE HWWRITE into SW */ 


cri rl2, rl2, (MAS3_ SX | MAS3 _ SR) 


这 有 段 程序 首先 使 用 r11 寄存 器 中 获得 WIMGE 字段 替换 MAS2 寄存 器 中 的 WIMGE 字 
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段 ,然后 将 结果 暂时 存放 到 寄存 器 rl2 中 。 

当 LT 位 为 1 时 bge 指令 将 调转 到 1f 处 开始 执行 。 这 段 程序 的 主要 作用 是 根据 虚拟 地 址 
是 属于 Linux 核心 空间 还 是 用 户 空间 ,将 rll 寄存 器 中 有 关 物 理 页 面 的 属性 赋值 到 rl2 寄存 
人 中。 


2: twimi rll, rl12, 0, 20, 3] /* Extract RPN {from PTE and merge with perms */ 
mtspr SPRN MAS3, rll 


将 rll 寄存 器 中 的 RPN 和 rl2 寄存 器 中 的 物理 页 面 的 属性 进行 拼接 ,然后 放 人 寄存 器 
MAS3 中 。 
tlbwe 
/* Done.. .restore registers and get out of here. */ 
mfspr rill, SPRN _ SPRG7R 
mter rll 
mfspr rl13, SPRN _ SPRGSR 
mfspr rl2，SPRN _ SPRG4R 
mfspr rll, SPRN _ SPRG] 
mfspr r10, SPRN _ SPRGO 
rfi /x Force context change ¥*/ 


这 段 程序 使 用 tlbwe 指令 ,更 新 TLB0 的 相应 Entry, 之 后 恢复 Data TLB Error [nterrupt 
异常 中 使 用 的 spr 寄存 器 ,最 后 使 用 rfi 指令 将 异常 处 理 清 数 返回 。 


7.2 Linux PowerPC 的 核心 空间 


PowerPC 处 理 器 系统 的 物理 地 址 空间 主要 由 主 存储 器 空间 和 外 部 设备 空间 组 成 。 一 般 
来 说 ,基于 E500 内核 的 处 理 器 使 用 DDR-SDRAM 做 为 主 存储 器 的 物理 介质 。 外 部 设备 使 用 
的 空间 包括 常用 的 一 些 外 部 设备 ,如 PCI 总 线 设备 .Local Bus 设备 .CPM 以 及 心 片 内 邵 采 用 
存储 器 映射 的 寄存 器 等 。 

在 Linux PowerPC 中 ,所 有 这 些 物理 地 址 空间 最 终 被 映射 到 Linux 系统 的 核心 空间 中 。 
对 于 32 位 PowerPC 处 理 器 ,这 段 空 间 为 KERNELBASE 以 上 的 1GB 大 小 的 空间 , 即 0xC000- 
000 一 0xFFFF-FFFF 这 段 数据 区 域 。 本 节 所 讲述 的 Linux 的 核心 空间 ,就 是 指 这 段 数据 区 域 。 

在 Linux PowerPC 核心 空间 的 管理 中 ,有 些 概 念 涉及 多 内 核 处 理 器 及 巨型 机 。 这 些 概念 
对 于 绝 大 多 数 并 没有 巨型 机 经 验 的 读者 来 说 ,不 易 理解 。 但 是 这 些 概念 不 得 不 在 此 处 提起 , 因 
为 这 部 分 内 容 的 存在 使 得 Linux PowerPC 有 别 于 其 他 系统 的 Linux, 如 Linux ARM 和 Linux 
Pentium。 

在 学 习 Linux PowerPC 核心 空间 的 管理 时 ,我 们 首先 遇 到 的 概念 是 非 均衡 式 存储 硕 访 问 
(Non Uniform Memory Access, NUMA ) 和 均衡 式 存 储 郁 访问 (Uniformn Memory Access， 
UMA) 。 

NUMA 结构 的 处 理 器 系统 由 多 个 SMP 结构 的 处 理 器 系统 组 成 ,其 中 每 个 SMP 结构 的 处 
理 器 系统 具有 自己 的 物理 存储 器 。NUMA 结构 的 典型 应 用 是 超大 规模 并 行 处 理 系 统 (Mas- 

299 


sive Parallel Processor, MPP)。 对 于 NUMA 结构 而 言 , 由 于 其 存储 系统 分 布 在 多 个 处 理 器 系 
统 中 ,因此 对 于 在 其 上 运行 的 进程 来 说 ,对 物理 存储 器 的 访问 是 不 均衡 的 ,这 种 存储 器 访问 方 
式 被 称 为 NUMA- 

UMA 纺 构 的 处 理 器 系统 一 般 由 多 个 处 理 器 组 成 ,这 些 处 理 器 对 物理 存储 器 的 访问 是 均 
衡 的 , 即 这 些 处 理 器 访问 物理 存储 器 的 延 时 相同 。SMP 结构 处 理 器 系统 就 是 典型 的 UMA 结 

尽管 Linux PowerPC 支持 NUMA 结构 ,但 是 Linux PowerPC 的 其 他 模块 如 进程 管理 ,中 
断 系 统 等 绝 大 多 数 模 块 并 没有 对 MPP 结构 进行 支持 。 如 果 Linux 系统 需要 支持 MPP 结构 的 
处 理 恬 系统 ,那么 程序 员 需 要 对 现 有 的 Linux PowerPC 做 许多 深层 次 改动 。 事 实 上 对 于 MPP 
第 构 处 理 器 系统 , 现 有 的 Linux 系统 并 不 完善 ,本 书 对 此 将 不 做 详细 介绍 。 

Linux PowerPC 设置 了 pg _data_ tt 续 构 描 述 NUMA 结构 的 每 个 SMP 结构 处 理 器 的 物 
理 存 储 系 统 ,并 使 用 node _ data 数组 存放 所 有 pg _ data tt 数据 结构 ,node _data 数组 中 的 每 一 
个 Entry 用 来 描述 一 个 存储 器 节点 。 

SMP 结构 的 处 理 器 系统 或 者 单 处 理 需 采用 UMA 方式 进行 存储 絮 访 问 , 这 种 结构 的 处理 
语系 统 只 有 一 个 物理 存储 器 。 但 是 与 NUMA 结构 相同 ,Linux 系统 也 使 用 pg _ data _t 数据 
结 爸 描述 整个 存储 器 空间 。 但 是 在 SMP 结构 或 者 单 处 理 器 结构 中 , 仅 设置 了 一 个 pg _ data _ 
t 类 型 的 全 局 变量 contig _page _data, 而 不 是 一 个 数组 。 

该 数据 的 详细 描述 见 . /includeAinux/mmzone.bh 文件 。Linux 系统 使 用 宏 NODE DATA 
访问 此 数据 。 

Linux PowerPC 中 ,全 局 变量 contig page data 由 多 个 数据 区 域 组 成 ,如 下 所 示 : 

(1) ZONE_ DMA。 一 些 只 有 低 24 位 地 址 总 线 的 外 部 设备 进行 DMA 操作 时 ,只 能 访问 
处 理 絮 最 低 的 16 MB 的 地 址 空间 。 ZONE DMA 就 是 用 来 支持 这 类 外 部 设备 的 。Pentium 处 
理 器 使 用 这 段 数据 区 域 

(2) ZONE_DMA32。 这 段 数据 区 域 由 Andi Kleen 加 入 ,支持 访问 32 位 地 址 总 线 的 外 部 
设备 。Pentuim 处 理 器 使 用 这 段 区 域 作为 32 位 的 DMA 数据 区 域 , 用 来 区 分 ZONE _DMA 数 

(3) ZONE_ NORMAL。 这 段 数据 区 域 是 最 常用 的 ,处 理 器 系统 中 绝 大 多 数 物理 内 存 都 
被 映射 到 这 段 空间 。 

(4) ZONE_ HIMEM。 这 上 段 数据 区 域 管 理 不 能 被 处 理 器 直接 访问 的 高 端 存 储 器 空间 。 当 

个 处 理 能 系统 的 物理 存储 器 过 大 时 ,将 有 一 部 分 存储 器 映射 到 ZONE _ HIMEM 数据 区 
域 里 。 

但 并 不 是 所 有 体系 结构 的 处 理 器 都 需要 支持 这 四 类 存储 器 区 域 。 如 64 位 处 理 器 系统 ,由 
于 其 核心 空间 非常 大 ,因此 不 需要 ZONE ”HIMEM 这 段 区 域 ;对 于 有 些 体系 结构 的 处 理 器 ， 
不 存在 ZONE _DMA 和 ZONE _DMA32 

基于 E500 内 核 的 Linux PowerPC 使 用 了 ZONE _DMA 和 ZONE _HIMEM 两 段 数据 区 
域 。 这 两 段 数据 区 域 由 许多 物理 页 面 组 成 。 在 Linux 系统 中 ,使 用 free _ area 参数 保存 所 有 这 
些 物 理 页 面 。 在 Linux PowerPC 中 ,pg_ data t,zone,free_area 和 page 的 关系 如 图 7-3 所 示 。 
其 中 MAX_ORDER 的 默认 值 为 11。 
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contig page data 


ZONE_DMA | 
free area[MAX ORDER] free area[MAX ORDER] 


ZONE HIMEM 








图 7-3 ”Linux PowerPC 中 的 存储 方 点 


在 图 7-3 中 ,每 一 个 存储 器 节点 由 多 个 数据 区 域 组 成 ， 每 一 个 数据 区 域 包含 一 个 free _ 
area 数组 。 在 free .area 数组 中 ,包含 了 一 系列 page 结构 ,Linux 系统 使 用 这 个 数组 实现 Bud- 
dy System。 对 于 32 位 处 理 器 ,Buddy System 的 每 一 个 page 结构 挡 述 - 个 4KB 大 小 的 物理 地 
址 空间 。 


7.2.1 Linux PowerPC 存储 节点 的 数据 结构 


如 图 7-3 所 示 ,与 Linux PowerPC 存储 节点 相关 的 结构 有 pg _ data _ t、zone、free _ area 和 
page 结构 。 下 文 将 对 pg _ data _t、zone ,free _ area 和 page 结构 进行 详细 说 明 , 而 free _ area 结 
构 将 在 7.2.3 节 中 介绍 。 

1. pg _data _ +t 结构 

pg _data_t 结 构 对 于 单 处 理 器 系统 或 者 SMP 结构 处 理 器 系统 的 意义 并 不 大 ,但 是 对 于 
MPP 结构 的 处 理 器 系统 十 分 有 帮助 。 该 结构 由 IBM 结构 引信 ,主要 针对 其 iSeries 和 pSeries 
服务 器 ,以 及 一 些 没 有 完全 公开 其 详细 设计 的 MPP 结构 处 理 顺 

pg _data 上 结构 对 全 机 物理 地 址 的 统一 编 址 有 较 大 帮助 。 在 处 理 器 系统 的 实现 中 ,将 一 
个 .四 个 或 者 是 几 十 个 处 理 器 使 用 的 物理 地 址 进行 统一 编 址 也 许 难 度 并 不 是 非常 大 ,但 是 将 几 
千 个 处 理 器 进行 统一 编 址 并 不 是 一 件 容易 的 事情 。 

Linux PowerPC 使 用 pg _data tt 数 据 结构 描述 在 同一 个 处 理 器 系统 (SMP 结构 处 理 帮 或 
者 单 处 理 器 ) 的 所 有 物理 内 存 。Linux 系统 称 这 些 pg _data 1 数据 结构 为 存储 节点 (Node)， 
该 结构 的 详细 定义 在 . /include/Ainux/mmzone.bh 文件 中 。 

typedef struct pgjist _data | 
struct zone node zones[ MAX __NR_ZONES]; 
struct zonelist node _ zonelists[ GFP _ ZONETYPES|; 


struct page * node_ mem map; 
struct boormem _ data * bdatai 


unsigned long node_ start _ pfn; 
unsigned long node _ present _ pages; /* total number of physical pages */ 
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unsigned long node spanned pages; /* total size of physical page range, including holes * / 


int node _ id; 
wait queue_ head 上 kswapd wait; 
struct task _ struct * kswapd; 
int kswapd _ max _ order; 
| PE _ data ti 


pg _ data _t 结构 的 参数 如 下 ， 

(1) node _ zones 参数 描述 当前 存储 器 节点 (Node) 的 数据 区 域 类 型 。 这 些 数据 区 域 包括 
ONE_ HIGHMEM.ZONE_ NORMAL .ZONE DMA 和 ZONE DMA32 ， 

(2) node _zonelisrs 参数 存放 Linux 系统 分 配 物理 内 存 时 的 优先 顺序 。 如 果 在 某 个 数据 
区 域内 存 分 配 失败 时 ,将 根据 node _ zonelists 参数 存放 的 顺序 继续 在 其 他 数据 区 域 中 进行 内 
存 分 配 。 如 Linux 系统 ,在 ZONE _HIGHMEM 数据 区 域 ,分 配 存储 空间 失败 后 ,可 以 根据 
node _ zonclists 中 规定 的 顺序 ,在 ZONE_NORMAL 或 者 ZONE _DMA 数据 区 域 中 ,进行 内 
存 分 配 。 

(3) nr _ zones 参数 保存 在 当前 Linux 系统 中 数据 区 域 的 个 数 , 其 最 大 值 为 4, 在 Linux 系 
统 中 最 大 数据 区 域 数 为 4, 最 小 值 为 1. 

(4) node _ mem _ map 参数 存放 当前 存储 器 节点 (Node) 的 物理 页 表 摘 述 符 的 基地 址 。 页 
表 描 述 符 是 指 page 结构 ,该 结构 与 PTE 表 不 同 。 下 文 将 详细 介绍 page 结构 

(5) bdata 参数 管理 Boot Memory 空间 。 该 参数 和 Boot Memory 将 在 下 文 详细 介绍 . 

(6) node __start _pfn 参数 存放 当前 处 理 器 系统 中 ,第 一 个 物理 页 表 的 页 表 号 PFN(Page 
Frame Number). 

(7) node _ present _ pages 参数 存放 在 当前 处 理 器 系统 中 使 用 的 物理 页 面 个 数 

(8) node _spanned _ pages 参数 存放 在 当前 处 理 器 系统 中 的 全 部 物理 页 面 个 数 。 在 一 个 
处 理 兹 系统 中 ,物理 内 存 包 含 一 些 空洞 . node spanned pages 参数 摘 述 的 物理 页 面 个 数 , 包 
括 这 些 空洞 使 用 的 物理 地 址 空间 ,而 node present_ pages 参数 只 保存 实际 的 物理 内 存 页 
面 数 。 

举例 说 明 , 在 地 址 范围 为 0x0000-0000 一 0x1FFF-FFFF 的 数据 区 域 中 ,如 果 其 0x1000- 
0000 一 0x100F-FFFF 之 间 的 空间 无 效 (为 空洞 ) ,此 时 该 系统 的 node spanned ”pages 参数 为 
131072 ,表示 这 段 数据 区 域 的 总 大 小 为 512 MB ,而 node present ”pages 参数 为 130816. 表 示 
这 段 数据 区 域 可 使 用 的 空间 为 511 MB. 

(9) node _ id 参数 存放 当前 存储 器 节点 (Node) 的 ID 号 . 

2. zone 结构 

在 Linux 系统 中 ,使 用 结构 struct zone 描述 ZONE _ NORMAL 和 ZONE HIMEM.、 
ZONE _ DMA .LONE_DMA32- 该 结构 在 . /include/Ninux/mmzone.bh 文件 中 ,其 主要 数据 成 
员 如 下 所 示 : 


struct zone | 
A* Fields commonly accessed by the page allocator * / 
unsigned long free_ pages; 
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unsigned long pages _ min, pages _ low, pages _ high; 
unsigned long lowmem reserve{ MAX_ NR _ ZONESj]; 


struct per cpu_ pageset pageset[| NR_ CPUS); 
spinlock t lock; 


struct free area free_area[ MAX_ ORDER |: 


spinlock t lru_ lock; 

struct list bead active_ list; 

struct list_ head inactive_ list; 

unsigned long nr. Scan active; 

unsigned long nr scan inactive; 

unsigned long nr _ active; 

unsigned long nr inactives 

unsignedlong pages_ scanned; /* since last reclaim */ 
ini all_ unreclaimable; /* All pages pinned * / 


struct pglist _ data # z0ne _ pgdal; 
unsigned long zone start _ pfn; 


char 关 nAme; 
| cacheline_ internodealigned _ in _ smp; 


(1) free _ pages 参数 记录 在 当前 数据 区 域 Zone 内 未 使 用 页 面 的 个 数 。 

(2) pages _ min,pages _ low 和 pages _ high 参数 记录 Zone 内 的 数据 病 值 。 当 Zone 中 的 可 
用 内 存 较 少时 ,kswapd 进程 将 被 唤醒 ,进行 页 面 交 换 。pages _min,pages _low 和 pages _ high 
参数 用 来 协调 kswapd 进程 进行 物理 内 存 的 切换 工作 . 

当 free pages 小 于 或 者 等 于 pages _ min 时 ,kswapd 必须 进行 存储 器 页 面 交 互 ,将 一 些 暂 
时 不 使 用 的 存储 器 空间 移 到 Swap 区 中 ,此 时 申请 物理 内 存 页 面 的 进程 必须 休眠 ,直到 free _ 
pages 大 于 pages _ min; 当 free _ pages 小 于 等 于 pages _low 时 ,kswapd 进程 被 唤醒 ,释放 Buddy 
System 中 的 空闲 页 面 ,以 增加 free _ pages 的 值 ;pages _low 的 默认 值 是 pages _ min 的 两 倍 ; 当 
free ”pages 大 于 等 于 pages _ high 时 ,kswapd 不 会 被 唤醒 ,此 时 Linux 系统 认为 当前 zone 中 的 
内 存 足够 大 

(3) pageset 参数 存放 在 当前 Node 中 的 所 有 内 存 页 面 。 在 Linux 中 ， 物理 页 面 被 分 为 两 
类 ,hot 和 cold 类 。 该 参数 可 以 加 快 单个 物理 页 面 的 申请 与 释放 速度 。 

(4) lock 和 lru _ lock 参数 保护 对 Zone 内 临界 数据 的 访问 。 

(5) free ”area 参数 是 zone 中 的 重要 参数 。 这 个 参数 对 当前 Zone 的 页 面 空间 进 行 管理 。 
Linux 系统 使 用 Buddy System 管理 Zone 内 的 页面 空间 。 

(6) active list 参数 和 inactive _list 参数 ，Linux 系统 为 每 一 个 数据 区 域 zone 维 扩 active 
_ list 和 inactive _ list 两 个 双 癌 链表 ,这 两 个 双向 链表 实现 物理 内 存 的 回收 ， 

Linux 内 存 管理 系统 将 刚 分 配 的 Cache 表 项 加 入 到 inactive _ list 头 部 ,并 将 其 状态 设置 为 
active。 当 物理 内 存 空间 有 限时 ,需要 回收 Cache 表 项 . 此 时 系统 首先 从 尾部 开始 反 回 扫 摘 
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active _ list 链表 ,并 将 状态 不 为 referenced 的 表 项 加 入 到 inactive _ list 的 头 部 。 之 后 Linux 系 
统 继续 反 向 扫描 inactive _list 链表 ,如 末 所 扫描 的 表 项 的 处 于 合适 的 状态 就 回收 ,直到 回收 了 
眉 够 数目 的 Cache 表 项 。 

(7) nr scan active, nr _ Scan _ inactive. nr __ active 和 nr _ inactive 参数 维护 inactive _ list 
和 active _ list 两 个 双向 链表 的 数据 个 数 。 此 组 参数 .pages ”scanned .all ”unreclaimable 参数 、 
active _ list 参数 和 inactive _list 参数 与 Linux 内 存 管理 的 文件 Cache 有 关 , 这 部 分 的 内 容 较 为 
复杂 ,对 此 有 兴趣 的 读者 可 以 阅读 ./mm/vmscan.e 文件 中 的 shrink _ xx 函数 ， 在 一 个 没有 
swap 区 的 系统 中 ,这 些 参数 没有 太 大 的 意义 ， 

(8) zone _ pgdat 参数 指向 pg _ data _t 类 型 的 指针 。 在 UMA 系统 中 ,只 有 一 个 存储 器 节 
点, 此 时 zone _ pgdat 的 值 为 contig page data. 

(9) zone _ start _ pfn 参数 存放 Zone 中 的 第 -个 物理 页 表 的 页 表 号 PFN。 

(10) name 参数 存放 zone 的 名 字 . 如 “DMA”， “Normal 或 "HighMem”， 

3. page 结构 

在 进行 物理 内 存 管 理 时 ,Linux 系统 必须 记录 每 一 个 物理 页 面 的 使 用 情况 。 对 于 32 位 处 
理 磊 ,Linux 系统 将 物理 内 存 分 为 一 个 个 独立 的 4KB 页 面 进 行 管理 ,并 设置 页 表 描 述 符 page 
结构 ,用 来 监控 每 一 个 物理 页 面 的 使 用 。 在 Linux 系统 中 ,所 有 页 表 描 述 符 存放 在 全 局 变量 
contig _ page _ data>node_mem _ map 指针 中 ,这 个 指针 也 被 称 为 存储 器 节点 的 全 局 页 表 描 述 
侍 指 针 。 只 有 一 个 存储 器 节点 的 处 理 器 系统 使 用 mem map 数组 ,存放 这 个 全 局 页 表 描 述 符 
指针 。 

Linux PowerPC 使 用 alloc _ node _ mem map 孙 数 为 mem map 数组 分 配 空 间 ,使 用 Boot 
Memory 保存 mem_ map 数组 .该 数组 一 旦 被 创建 ,在 Linux 系统 的 运行 过 程 中 ,不 会 被 释放 ， 
效 组 mem_ map 的 大 小 约 占 整个 物理 内 存 大 小 的 1%。 在 mem map 中 ， 存放 着 系统 中 所 有 
物理 页 面 的 描述 符 page。 数 据 结 构 page 的 定义 在 . /include/linux/mm_ types.h 文件 中 ,其 主 
要 参数 如 下 : 


struct page | 
unsigned long flags; 


atomic _ t _ count; 
atomic _t _ mapceount; 


unicn | 
struct | 
unsigned long private:; 
struct address _ space * mapping; 
bs 

|; 

pgoff 1 index; 

struct list _ head lrui 

| 


(1) flags 参数 用 来 表示 当前 页 面 的 状态 ,其 定义 在 . /includeAinux/page _ flags.h 文件 中 。 
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主要 状态 值 如 表 7-3 所 示 。 


表 7-3 ”page 结构 flags 参数 的 含义 


PG _ locked 表示 当前 页 面 被 锁定 ,不 能 被 换 出 
PG _ error 表示 在 向 此 页 面 进行 数据 传递 时 发 生 错误 
PG _ referenced 表示 页 面 最 近 被 访问 过 
PG _ uptodate 表示 页 面 刚 刚 更 新 过 
PG _ dirty 表示 页 面 被 改写 
PG _ lru 表示 页 面 在 active page 链表 或 者 inactive page 链表 中 
PG _ active 表示 页 面 在 active page 链表 中 
PG _ slab 表示 该 页 在 Slab 分 配器 中 ,有 关 Slab 分 配器 的 概念 将 会 在 下 文中 解释 
PG _ checked 表示 页 面 被 一 些 文件 系统 使 用 
PG _arch_1 表示 页 面 不 是 x86 结构 下 的 页 面 
PG _ reserved 表示 页 面 为 内 核 代 码 预 留 或 者 没有 使 用 
PG _ private 存放 页 面 的 私有 数据 
PG _ writeback 表示 页 面 将 被 回 写 到 外 部 存储 器 中 ,如 硬盘 
PG _ nosave 在 系统 挂 起 和 恢复 时 使 用 
PG _ compound 当前 页 面 为 compound 页 
PG _ swapcache 用 于 swap 区 对 换 


PG_ mappedtodisk 表示 此 页 面 对 应 的 数据 在 外 部 存储 器 中 
表示 页 面 将 被 写 人 外 部 存储 器 中 
在 系统 挂 起 和 恢复 时 使 用 


表示 此 页 面 在 Buddy System 中 。 有 关 Buddy System 的 概念 将 会 在 下 文中 解释 


PG _reclaim 
PG _nosave _ free 


PG _ buddy 


(2) _ count 参数 存放 当前 页 面 的 引用 计数 。 该 参数 表示 当前 物理 页 面 被 多 少 个 进程 引 
用 , 即 当 前 有 多 少 个 进程 共享 此 物理 页 面 。 

(3) _ mapcount 的 值 表示 有 几 个 PTE 表 与 此 page 结构 关联 。 在 Linux PowerPC 中 ,不 同 
的 虚拟 地 址 可 以 映射 到 同一 个 物理 地 址 上 ,以 共享 物理 内 存 。 

(4) private 参数 存放 一 些 私 有 数据 。 

(5) mapping 参数 支持 page cache 系统 。 

(6) lru 参数 用 来 保存 最 近 被 使 用 的 页 表 。 

Linux 系统 使 用 mem _ init 函数 ,初始 化 当前 处 理 器 系统 的 所 有 页 表 描 述 符 , 本 书 将 在 下 
文 详细 介绍 该 函数 。 


7.2.2 Linux PowerPC 核心 空间 的 初始 化 


Linux PowerPC 核心 空间 的 初始 化 包括 对 全 局 变量 contig _ page _ data, Zone 和 页 表 描 述 
符 的 初始 化 。 在 Linux PowerPC 中 ,包含 两 类 Zone:ZONE DMA 和 ZONE HIMEM。 Linux 
PowerPC 使 用 paging _ init 函数 初始 化 所 Linux PowerPC 内 核 使 用 的 有 效 地 址 空间 。 

paging _ init 函数 在 Linux 系统 进行 初始 化 时 ,由 setup _ arch 函数 调用 ,该 函数 的 源 代码 
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在 . /arch/powerpc/mm/memo.c 文件 中 。paging _ init 函数 首先 对 Zone 空间 进行 初始 化 ,之 后 
调用 free _area _ init _ node 国 数 ,其 调用 关系 如 图 7-4 所 示 。 


| free area Init nodes 





calculate zone totalpages | alloe node mem map free area InIT core 


图 7-4 paging _ inil 汞 数 


paging _init 国 数 主要 由 free _area_init nodes 一 >free _area_init _ node 图 数 完 成 ,该 图 
数 首 先 对 Zone 空间 进行 初始 化 ,之 后 依次 调用 图 7-4 中 相应 的 函数 。 

1. Zone 的 初始 化 

在 Linux PowerPC 中 ,Zone 空间 初始 化 的 源 代码 如 下 所 示 : 


void _ init paging _ init(void) 
| 
unsigned long start _ pfn, end __ pln:; 
unsigned long max_ zone_ pfns| MAX _ NR _ ZONES|:; 
#ifdef CONFIG_ HIGHMEM 
map_ page( PKMAP BASE, 0, 0); /* XXX gross */ 
pkmap _ page_ table = pte_ offse:_ kernel(pmd offset(pgd _ offset _k 
(PKMAP BASE), PKMAP_ BASE), PRKMAP _ BASE); 
map. page(KMAP_ FIX_ BEGIN, 0, 0); /* XXX gross */ 
kmap _ pte = pte_ offset_ kernel(pmd offset(pgd offset_k 
(KMAP FIX BEG™N), KMAP FIX_ BEGIN), KMAP_FIX_ BEGIN); 
kmap prot = PAGE KERNEL:; 
#endif A/¥# CONFIG HIGHMEM */ 

如 果 处 理 右 系统 支持 HIMEM , paging _ init 函数 使 用 map _ page 函数 为 PKMAP __ BASE 
之 后 的 虚拟 地 址 建立 pte 表 和 kmap 需要 使 用 的 pte 表 。 在 这 些 表 项 建立 之 后 ,处 理 兹 系统 才 
可 以 访问 HIMEM 管理 的 物理 内 存 。 

/* All pages are DIMA-able so we put them all in the DMA zone. */ 
start pfn = _ pa(PAGE OFFSET) >> PAGE _ SHIFT:; 

end pfn = start_ pfn + (taal memory >> PAGE _ SHIFT):; 
add_ active_ range(0, start _ pfn, end _ pfn): 


memset(max_ zone_ pfns, 0, sizeof(max _ zone _pfns) ) ; 
这 段 程序 确定 Linux 系统 使 用 的 start _ pfn(Linux 内 核 使 用 的 开始 页 表 号 ) 和 end _ pfn 
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(Linux 内 核 使 用 的 最 后 一 个 页 表 号 ) ,然后 调用 add _ active _ range 函数 将 这 些 信息 保存 在 全 
局 数组 early_ node map 中 。 

early _node _map 数组 将 在 free _area _init _nodes 函数 中 使 用 ,该 数组 存放 Linux 系统 最 
彻 的 主 存储 大 上 映像。 


#ifdef CONFIG HIGHMEM 
max_ zone_ pfns| ZONE_ DMA| = total_ lowmem >> PAGE _ SHIFT:; 
max_zone_ pfns[ ZONE HIGHMEM| = top_of_ram >> PAGE SHIFT:; 
# else 
max zone_ pfns[ZONE DMA] = top_of_ram >> PAGE SHIFT:; 
# endif 
free_area_init_ nodes(max _ zone_ plns); 


| A/¥% End paging init ¥*/ 


这 段 程序 计算 在 Linux PowerPC 中 ,ZONE DMA 和 ZONE _ HIMEM 的 数据 区 域 的 大 
小 。 在 Linux PowerPC 中 ,只 设置 了 ZONE DMA 和 ZONE HIMEM 两 种 类 型 的 空间 。 其 
中 ZONE _ DMA 区 域 存 放 低 端 内 存 , 而 ZONE _HIGHMEM 存放 高 端 内 存 。 

有 些 32 位 PowerPC 处 理 硕 系统 ,由 于 使 用 的 物理 内 存 较 大 ,必须 使 用 ZONE _DMA 和 
ZONE_ HIMEM 区 域 。 在 Linux PowerPC 中 ,ZONE _DMA 只 能 管理 0 一 768 MB 之 间 的 物 
理 内 存 ,768 MB 之 上 的 内 存 需 要 使 用 ZONE _HIMEM 区 域 进行 管理 ，ZONE _HIMEM 管理 
的 内 存 不 能 被 直接 访问 ,需要 进行 空间 映射 ,然后 进行 复制 后 才能 使 用 。 

Linux PowerPC 没有 使 用 ZONE NORMAL 这 段 数据 区 域 。 从 数据 结构 的 角度 上 看 ， 
ZONE _DMA 和 ZONE _NORMAL 数据 区 域 没 有 什么 本 质 的 不 同 。 在 Linux PowerPC 中 , 没 
有 将 ZONE _DMA 和 ZONE _NORMAL 分 离 的 必要 ,这 是 由 PowerPC 处 理 器 的 体系 结构 决 
定 的 。Linux PowerPC 选择 使 用 ZONE ”DMA 数据 区 域 管理 整个 物理 内 存 , 实际 上 选择 
ZONE _NORMAL 数据 区 域 管理 整个 物理 内 存 也 是 可 以 的 。 

top _ of _ram 参数 记录 内 存 的 最 大 地 址 :total _ ram 参数 记录 内 存 的 总 数 ; total _ lowmem 
参数 记录 低 端 内 存 的 最 大 值 ,其 值 由 .config 文件 的 CONFIG_ LOWMEM _ SIZE 参数 决定 。 
对 于 Linux PowerPC.CONFIG _LOWMEM _ SIZE 的 默认 值 为 0x3000-0000. 即 768 MB， 当 
Linux PowerPC 不 使 用 HIMEM 内 存 时 ,整个 处 理 器 系统 最 多 文 持 768 MB 物理 内 存 。 此 时 
ZONE _ DMA 区 域 的 大 小 为 top _ of _ ram 参数 中 的 页 面 个 数 。 

Linux PowerPC 在 Zone 初始 化 完毕 后 ,调用 free _ area init nodes 一 free _area _ init _ 
node 函数 ,初始 化 当前 存储 器 节点 的 相关 数据 结构 


void _ meminit free area_ init_ node(lint nid, struct pglist data * pgdat, 
unsigned long * zones _ size, unsigned long node_ start _ pfn, 
unsigned long * zholes _ size) 
| 
pgdat- >node_ id = nid; 
pgdat- >node start_ pfn = node start_ pfn; 
calculate_ node_ totalpages(pgdat, zones_ size, zholes size); 
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alloc _node_mem _ map(pgdat); 


free_ area_ init_ core(pgdat, zones_ size, zholes _ size); 
| 

free _area init node 函数 在 . /mm/page alloc.c 文件 中 ,该 函数 pgdat 参数 进行 一 些 必 
要 的 初始 化 后 ,依次 调用 calculate_ node _ totalpages ,alloc _node _mem _map 和 free _ area _ 
init ”core 函数 。 该 函数 有 5 个 参数 ,分 别 为 nid .pgdat,zones_ size、node _ start _ pfn 和 zholes_ 
size 

(1) nid 参数 记录 当前 存储 器 节点 使 用 的 ID 号 。 对 于 只 有 一 个 存储 器 节 点 的 处 理 颖 系 
统 , 该 参数 为 0; 具 有 多 个 存储 器 节点 的 处 理 器 系统 ,可 以 使 用 此 参数 实现 全 机 物理 地 址 的 统 
一 编 址 。 

(2) pgdat 参数 存放 当前 存储 器 节点 (Node) 的 描述 符 pg _ data _t。 在 只 有 一 个 存储 紫 市 
点 的 处 理 器 系统 中 ,定义 了 一 个 存储 器 节点 (Node) 摘 述 符 contig page _ data- 在 Linux Pow- 
erPC 中 使 用 宏 定 多 NODE DATA 访问 contig page_ data。 

(3) zones _ size 指针 存放 各 个 Zone 的 大 小 。 

(4) zholes _ size 指针 存放 各 个 Zone 中 空洞 的 大 小 。 在 一 个 处 理 絮 系统 中 ,物理 地 址 不 一 
定 连续 ,zones _ size 参数 记录 存储 器 节点 中 的 空洞。 

(5) node _ start _ pfn 参数 存放 用 来 存放 当前 存储 器 市 点 的 第 一 个 物理 页 表 的 页 示 号 
FE 

2. calculate node ”totalpages 函数 

calculate ”zone totalpages 函数 有 3 个 参数 ,其 意义 与 free _ area _ init _ node 国 数 的 参数 
意义 相同 ,该 函数 源 代码 如 下 所 示 : 


static void __ init caleulate_ node_ totalpages(struct pglist_ data * pgdat, 
unsigned long * zones size, unsigned long * zholes size) 
| 
unsigned long realtotalpages, totalpages = 0; 
enum Zone _ type 1; 
calculate _ zone _ totalpages 国 数 计算 在 一 个 存储 器 节点 中 的 总 页 面 数 totalpages 与 有 效 页 
面 数 realtotalpages。 由 于 空洞 的 存在 ,在 一 个 存储 器 系统 中 ,总 页 面 数 totalpages 与 有 效 页 面 
数 realtotalpages 可 能 不 相同 。 该 隙 数 将 存储 器 系统 中 ,总 由 面 数 totalpages 与 有 效 页 面 数 real- 
totalpages, 分 别 保存 在 pgdat 的 node spanned pages 和 node_ present _ pages 参数 中 。 
for (i = 0;i< MAX NR ZONES; i++ ) 
totalpages += zone spanned pages_in_ node(pgdat->node_id, i, 
zones_ size); 
pgdat->node spanned pages = totalpages; 


realtotalpages = totalpages; 
for (i = 0; i< MAX NR ZONES; i++) 
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realtotalpages 一 三 
zone absent pages_in_node(pgdat->node_id, i, 
zholes_ Slze): 
pgdat->node_ present_ pages = realtotalpages; 
printk(KERN _ DEBUG On node %d totalpages: %lu\n , pgdat->node_id, 
realtotalpages) ; 
| 


3, alloc_node _ mem _ map 函数 

alloc _ node_ mem _ map 国 数 只 有 一 个 参数 ,pgdat。 该 函数 为 所 有 页 未 摘 述 符 分 配 空 间 ， 
并 将 全 局 页 表 描 述 符 指针 保存 在 pdgat 一 > node_mem _ map 和 参数 中 ,最 后 将 node_ mem _ map 
赋值 到 全 局 变量 mem _ map 中 ,该 函数 的 源 代 码 如 下 : 


static void _ init alloe_node_ mem _ map(struct pglist_ data * pgdat) 
| 
A/¥ Skip empty nodes * / 
if (lpgdat->node spanned pages) 
return; 
#ifde{f CONFIG_FLAT_NODE _ MEM MAP 
A/¥ ia04 gets its own node_ mem map，before this, without bootmem */ 
if (lpgdat->node_ mem_ map) | 
unsigned long size, start, end; 
struct page # map; 


start = pgdat->node _start _pfn 及 一 (MAX_ORDER NR_PAGES — 1); 
end = pgdat->node_start_pfn + pgdat->node_ spanned _ pages: 
end = ALIGN(end, MAX_ ORDER_NR PAGES); 
size, = {end 一 start) * sizeof(struct page); 
map = alloc remap(pgdat->node_ id, size); 
if (lmap) 
map = alloc_ bootmem _ node(pgdat, size); 
pgdat->node_mem _ map = map + (pgdat->node start_ pfn 一 start); 
| 
#ifdef CONFIG _ FLATMEM 
if (pgdat == NODE DATA(0)) | 
mem_ map = NODE DATA(0)->node_ mem _ mapi 
ifdef COONFIG ARCH POPULATES NODE MAP 
让 (page to_pfn(mem map) 1= pgdat->node_ start_ pifn) 
mem map -= pgdat->node start_ pfn; 
#endif /¥ COONFIG_ ARCH_ POPULATES _ NODE MAP */ 
| 


并 endif 
#8endif /x CONFIG_ _ FLAT NODE MEM MAP #/ 
| 
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该 图 数 首 先进 行 参数 检查 ,判断 当前 存储 器 节点 (Node) 是 否 为 空 , 如 果 为 空 则 直接 返回 ， 
之 后 这 段 程序 通过 pgdat 中 的 node _ start _ pfn 和 node spanned pages 参数 ,计算 当前 在 存 
储 器 节点 中 ,一 共有 多 少 个 页 面 。 最 后 使 用 alloc _bootmem _ node 函数 分 配 页 面 描述 符 使 用 
的 空间 ,分 配 的 空间 大 小 为 当前 内 存 节点 中 的 总 页 面 数 乘 以 sizeof(struct page) 。 

当 paging _init 函数 执行 时 ,只 有 Boot Memory 空间 被 初始 化 完毕 ,因此 页 表 描 述 符 只 能 
使 用 Boot Memory 中 的 空间 。 具 有 多 个 存储 器 节 点 的 处 理 器 系统 ,有 多 个 页 表 描 述 符 ,Linux 
PowerPC 使 用 node_ mem _ map 数组 ,保存 当前 处 理 器 系统 的 所 有 页 表 描 述 符 的 基地 址 ;只 有 
一 个 存储 器 节点 的 处 理 器 系统 使 用 全 局 变量 mem_ map 保存 页 表 描 述 符 的 基地 址 : 

4. free _ area init _core 函数 

free _area _ init _core 图 数 初 始 化 Zone 的 主要 参数 和 所 有 页 表 描 述 符 。 该 函数 共有 3 个 
参数 ,分 别 为 pgdat ,zones _ size 和 zholes size, 其 含义 与 free area init node 函数 的 参数 相 
同 。 该 函数 的 主要 源 代码 如 下 : 


static void _ meminit free area_ init _ core(lstruct pglist_ data * pgdat, 
unsigned long * zones_ size, unsigned long * zholes _ size) 
| 


for (ij = 0; j< MAX NR_ ZONES; j++)! 
struct zone # zone = pgdat->node zones + j; 
unsigned long size, realsize; 
realsize = size = zones sizelj|; 
if (zholes _ size) 
realsize —= zholes _ size|j |; 


让 (jj < ZONE_ HIGHMEM) 
nr_ kernel pages 十 = realsize; 
nr_all_ pages += realsize; 


zne- >spanned pages = size; 
zone- >present _ pages = realsize; 


zonetable_ add(zone, nid, j，zone start pfn, size): 

ret = init_ currently_ empty _ zone(zone, zone_ start pfn, size); 
BUG _ ON(ret); 

zone_ start _ pfn += size; 


| 


| /¥ Endfree area_init_ core */ 


free _ area _ init _ core 函数 首先 初始 化 当前 存储 器 节点 的 所 有 数据 区 域 Zone, 并 将 Zone 
结构 的 参数 进行 赋值 ,之 后 使 用 zonetable _add 函数 将 这 些 参 数 存 人 全 局 变量 zone table 中 ， 
最 后 调用 init _ currently_ empty _ zone 函数 ,init currently_ empty zone 函数 的 源 代码 如 下 : 
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__ meminit int init _ currently _ empty _ zone(struct zone * zone， 
unsigned long zone _ start _ pfn., 
unsigned long size) 


struct pglist _ data * pgdat = zone- >zone _ pgdat; 
int ret; 
ret = zone_ wait_ table_ init(zone, size); 
i{ (ret) 
return ret, 
pgdat->nr_ zones = zone_ idx(zone) + 1; 
zone->zone_ start_pfn = zone start_ pfn; 
memmap _ init(size, pgdat- >node_ id, zone_ idx(zone), zone_ start _ pfn); 
zone init free_ lists(pgdat, zone, zone- >spanned pages); 


return 0; 
| 
init ”currently _ empty zone 隶 数 的 执行 流程 如 下 : 
(1) 调用 zone wait _ table _init 函数 ,初始 化 当前 (Zone) 的 wait table。 
(2) 调用 memmap _ init 函数 ,初始 化 存储 器 节点 (Node) 的 每 一 个 页 面 朱 述 符 。 
(3) 调用 zone _init _ free _lists 函数 ,初始 化 存储 器 节点 (Node) 的 Buddy System。 


7.2.3 Linux PowerPC 核心 空间 内 存 的 分 配 与 释放 


Linux PowerPC 使 用 物理 页 面 管理 其 核心 空 间 。 对 于 PowerPC E500 内 核 , Linux 系统 使 
用 的 物理 页 面 大 小 为 4 KB, 其 中 每 个 页 面 都 与 一 个 page 结构 相对 应 。 进 行内 存 申 请 时 ,Linux 
内 核 以 一 个 页 面 为 基本 单位 。 

Linux PowerPC 的 核心 空间 被 分 解 为 一 个 个 的 数据 区 域 Zone, 如 数据 区 域 ZONE _ DMA 
和 ZONE HIMEM。 这 些 数据 区 域 由 一 系列 物理 页 面 组 成 ,Linux 系统 采用 Buddy System 管 
理 在 Zone 中 所 有 的 物理 内 存 页 面 。 

Buddy System 属于 动态 存储 管理 技术 。Buddy System 使 用 Buddy 算法 ,实现 动态 存储 系 
统管 理 。 在 一 个 操作 系统 中 ,除了 可 以 使 用 Buddy 算法 外 ,还 可 以 采用 其 他 动态 存储 管理 策 
略 ,如 顺序 搜索 .分 类 搜索 .索引 搜索 及 位 图 搜索 等 。 对 于 不 同 的 应 用 ,这 些 算法 各 有 优 少 。. 在 
Linux 系统 中 ,使 用 Buddy 算法 以 减少 整个 内 存 区 的 碎片 ,以 及 整个 物理 内 存 系统 的 使 用 

在 Linux 系统 的 运行 过 程 中 ,进程 会 不 断 地 申请 和 释放 页 面 ,因此 会 在 一 个 物理 地 址 连续 
的 内 存 中 形成 多 个 空洞 。 有 时 用 户 需 要 申请 一 段 物理 连续 的 空间 时 ,用 户 可 能 得 不 到 这 段 内 
存 空 间 ,这 将 导致 内 存 申请 失败 。 而 此 时 整个 系统 的 可 用 内 存 数 有 可 能 大 于 用 户 所 申请 的 内 
存 大 小 ,只 是 没有 一 段 物理 地 址 连续 的 空间 大 于 用 户 所 申请 的 空间 。 

在 这 种 情况 下 ,Linux 系统 的 内 存 管 理 系 统 需 要 将 整个 物理 内 存 空 间 进行 搬移 ,并 整合 以 
满足 这 段 内 存 的 申请 。 在 一 个 系统 中 不 论 采用 何 种 动态 内 存 管理 算法 ,这 种 内 存 的 搬移 和 整 
合 都 无 法 避免 ,只 是 采用 不 同 的 算法 可 以 决定 整个 内 存 的 使 用 效率 。 
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如 果 一 个 动态 物理 内 存 管 理 系 统 能 够 满足 不 同 用 户 的 各 类 内 存 申请 ,而 不 需要 进行 内 存 
的 整合 和 搬移 ,这 种 动态 物理 内 存 管 理 系统 将 是 完美 的 系统 ,只 是 这 种 动态 物理 内 存 管 理 系统 
实际 上 并 不 存在 。 任 何 一 个 动态 物理 内 存 管 理 系统 都 存在 着 各 种 各 样 的 约束 。 

Linux 系统 可 以 支持 从 巨型 机 到 手持 式 设 备 的 应 用 ,而 采用 的 物理 内 存 管理 算法 都 是 
Buddy 算法 。 虽 然 Buddy 算法 可 以 支持 许多 种 应 用 .但 实际 上 ,并 不 能 面面俱到 。 有 能 力 的 用 
户 可 以 针对 自己 的 应 用 选择 不 同 的 物理 内 存 管理 算法 ， 

采用 不 同 的 物理 内 存 管理 算法 将 极 大 影响 一 个 系统 的 实时 性 。 一 个 过 分 要 求实 时 性 的 应 
用 往往 会 选择 静态 存储 管理 技术 。 如 果 一 个 实时 操作 系统 使 用 动态 存储 管理 技术 ,这 种 操作 
系统 一 定 会 对 用 户 进行 某 种 约束 ,以 满足 其 实时 性 的 要 求 。 

当 用 户 书写 应 用 程序 ,驱动 程序 时 要 注意 这 些 约束 。 许 多 系统 的 响应 速度 低 , 效 率 低 下 的 
问 定 往往 由 一 些微 不 足 道 的 小 问题 引起 ,只 是 到 了 系统 设计 的 最 后 阶段 这 些小 问题 很 难 被 发 
现 。 重视 细 攻 往往 是 一 个 工程 师 需 要 具备 的 品质 ,这 一 品质 与 一 个 工程 师 是 否 细心 没有 本 质 
联系 。 工 程 师 需要 进行 不 断 积 累 , 才 可 能 获得 这 一 品质 。 

1, Linux PowerPC 空闲 块 的 组 成 

Linux PowerPC 采用 Buddy 算法 进行 动态 物理 内 存 的 管理 ,Buddy 算法 可 以 操纵 的 最 小 
数据 单元 为 一 个 物理 页 面 。 在 Linux PowerPC 中 , 共 使 用 了 ZONE _ DMA 和 ZONE _ 
HIMEM 两 种 类 型 的 Zone。 由 上 文 Zone 的 数据 结构 可 知 ,在 每 个 Zone 中 都 有 一 个 free area 
箔 构 , 这 个 结构 记录 所 有 在 当前 Zone 中 空闲 物理 内 存 页 面 ,该 结构 在 Linux 系统 中 的 定义 如 
下 所 示 : 

struct free_area {ree_ area[ MAX ORDER] 


其 中 free _ area 参数 是 一 个 数组 指针 ,用 来 保存 (MAX_ ORDER +1) 个 指向 free area 结 
构 的 指针 ,在 Linux PowerPC 中 MAX ORDER 的 值 为 11。 在 Linux 系统 中 ,使 用 这 -一 数组 
指针 来 实现 Buddy 算法 ,该 指针 结构 如 图 7-5 所 示 。 


Zone-> free area 


2 个 物理 地 址 页 面 连续 的 室 间 


2 个 物理 地 址 页 面 连续 的 空间 


图 7-5 空闲 物理 内 存 组 成 结构 


在 Linux 系统 中 ,Buddy 算法 将 物理 内 存 中 的 页 面 按照 大 小 ,分 别 进 行 管 理 。Buddy 算法 
将 单 页 面 (在 一 个 页 面 内 部 ,物理 地 址 一 定 连续 ) 以 双向 链表 的 方式 存放 在 free _area[0] 中 ,将 
两 个 物理 地 址 连续 的 页 面 存放 在 free _ area[1] 中 ,并 依次 类 推 ,将 2mererde 个 物理 地 址 连续 的 
页 面 存放 在 free_ areal MAX ORDER |] 中 。 

数据 结构 free _ area 的 定义 在 . /includeAinux/mmzone.h 文件 中 。 
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struct free area | 
struct list head free list; 
unsigned long nr_ free; 

ls 

在 此 结构 中 ,free _ list 参数 指向 物理 地 址 连续 页 面 所 组 成 的 双向 链表 ,而 nr _ free 参数 记 
录 这 些 双 疝 链表 中 的 成 员 个 数 。 如 图 7-5 所 示 ,在 Buddy System 中 ,物理 地 址 连续 的 最 大 空 
闻 为 2"e “个 页 面 大 小 。 在 基于 32 位 处 理 器 系统 的 Linux PowerPC 中 ,这 个 值 为 2048 个 页 
面 , 即 8 MB. 

提醒 读者 注意 ,在 Linux 系统 中 ,物理 地 址 连续 的 空间 资源 十 分 有 限 。 对 于 绝 大 多 数 应 
用 ,物理 地 址 连续 的 8 MB 空间 已 经 足够 。 如 果 某 些 应 用 使 用 的 物理 地 址 连续 的 空间 超过 8 
MB ,那么 程序 员 责 要 修改 Boot Memory 的 代码 ,将 这 段 空 间 从 Boot Memory 中 预 留 出 来 ,使 这 
段 物理 地 址 连续 的 空间 不 参加 Buddy System 的 内 存 管 理 。 使 用 这 种 方法 可 以 申请 超过 8 MB 
大 小 的 物理 地 址 连续 的 空间 ,但 是 希望 程序 员 最 好 使 用 更 为 巧妙 的 方法 ,避免 这 类 物理 内 存 的 

下 文 以 一 个 实例 说 明 Buddy 算法 如 何 对 内 存 进行 管理 。 当 用 户 申请 一 个 物理 地 址 连续 
的 17 个 页 面 空间 时 ,由 于 2 <17<2” ,因此 Buddy 算法 将 首先 检查 在 free _ area[ 5] 中 是 否 存 
在 空闲 页 面 ,如 果 有 则 从 free _ areal 5 ] 中 , 摘 取 一 个 空闲 块 分 配给 此 用 户 ,同时 将 free_ area 
.5 中 的 剩余 空间 32-17= 15 依次 加 入 到 对 应 的 free _ area[0 一 4] 中 。 

15=2 +2.+2 + 了 ,因此 在 free_area[5] 中 分 配 剩 余 的 15 个 物理 页 面 空间 ,分 别 加 入 到 
free _area0,free _ areal ,free _area2 ,free area3, 和 free area4 中 。 如 果 当 前 Linux 系统 没有 
在 free_areal5j 中 发 现 空 闲 的 物理 页 面 ,Buddy System 依次 寻找 free _ area[ 6 一 11] ,直到 找到 
具有 空闲 页 面 的 free _area 指针 ,将 这 个 空闲 块 分 配给 用 户 ,最 后 将 剩余 空间 依次 放 到 相应 的 
free _ area 中 . 

如 条 Buddy System 在 free_ areal MAX ORDER 中 也 没有 找到 空闲 块 , 此 时 Buddy Sys- 
tem 必须 启动 kswapd 进程 进行 内 存 整 理 。 在 这 个 整理 过 程 中 ,将 不 可 避免 地 改变 Linux 系统 
的 PIE 表 , 因 此 kswapd 进程 还 会 对 PowerPC E500 内 核 的 TLB0 进行 刷新 。 更 糟糕 的 是 在 一 
过 程 中 ,外 部 中 断 将 会 被 禁止 ,从 而 极 大 地 影响 整个 Linux 系统 的 效率 。 幸 运 的 是 ,这 种 情况 
在 整个 Linux 系统 中 ,出现 的 概率 相当 低 。 

物理 地 址 连续 空间 的 释放 是 申请 的 逆 过 程 , 当 释 放 一 个 物理 地 址 连续 的 23 个 页 面 时 . 
Buddy System 将 这 段 空间 分 别 释 放 到 free _ areal| 21 中 。 提 醒 读者 注意 ,Buddvy System 在 物理 
空间 释放 时 ,会 进行 空闲 块 的 合并 重组 ,将 互 为 伙伴 关系 的 空闲 块 组 成 一 个 更 大 的 物理 地 址 连 
续 的 空间 , 放 到 free _ area 的 相应 队列 中 。 

为 了 提高 内 存 管理 的 效率 ,这 种 空闲 块 的 合并 重组 在 绝 大 多 数 情 况 下 ,并 不 会 立即 进行 。 
我 们 可 以 猜想 ,如果 这 种 空闲 块 的 重组 立即 执行 ,即使 Linux 系统 只 是 释放 一 个 页 面 ,也 可 能 
引发 连锁 反应 。 在 最 恶劣 的 情况 下 ,整个 Buddy System 共 需 要 进行 MAX _ORDER 次 内 存 
重组 。 

综 上 所 述 , 使 用 Buddy System 对 大 块 物理 地 址 连续 空间 的 进行 申请 与 释放 时 ,在 最 恶劣 
的 情况 下 ,有 可 能 极 大 地 影响 Linux 系统 的 效率 。 因 此 再 次 提醒 读者 注意 ,在 进行 系统 程序 设 
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计时 ,再 要 尽量 避免 大 块 物理 地 址 连续 空间 的 申请 与 释放 

在 Linux 系统 中 ,使 用 最 频繁 的 操作 是 对 一 个 物理 页 面 的 申请 与 释放 ,Linux 系统 对 此 进 
行 了 一 些 特殊 地 处 理 。 在 Linux 系统 应 用 空间 执行 的 进程 ,其 使 用 的 内 存 空间 没有 必要 物理 
地 址 连续 ,使 用 vmalloc 分 配 的 内 存 也 不 需要 物理 地 址 连续 。 大 多 数 核心 进程 .驱动 程序 及 
Linux 内 核 申请 的 空间 ,也 不 沉 要 多 个 物理 地 址 连续 的 页 面 ,真正 需要 多 个 物理 页 面 连续 的 应 
用 非常 少 。 

2. 物理 地 址 连续 页 面 的 申请 

Linux 系统 使 用 alloc _ Bage 和 alloc _ Bages 图 数 ， 申请 物理 地 址 连续 的 页 面 。 alloc _ Page 
函数 申请 一 个 物理 页 面 ,而 alloc _ pages 函数 申请 多 个 物理 地 址 连续 的 页 面 。 在 Linux 系统 
中 ,alloc _ page 函数 将 调用 alloc _ pages 孙 数 ,因此 在 下 文 主要 介绍 alloc _ pages 函数 ， 

alloc ”pages 函数 在 . /include/Ainux/gfp.h 文件 中 在 alloc _ pages 国 数 返 回 时 ,获得 系统 
分 配 的 物理 地 址 连续 的 页 面 的 地 址 。 在 绝 大 多 数 情 况 下 ,alloc _ pages 函数 不 会 执行 失败 。 只 
有 在 当前 系统 中 没有 可 用 内 存 时 ,alloc .pages 图 数 才 会 执行 失败 ,此 时 Linux 系统 将 当前 进 
程 使 用 的 栈 段 和 整个 系统 的 内 存 使 用 清单 打印 出 来 

alloc ”pages 国 数 和 alloc page 盟 数 的 源 代 码 如 下 所 未 


# define alloc pagelgfp_ mask) alloc pages(gfp_ mask, 0) 
static inline struct page * alloc_ pages(unsigned int gfp _ mask, unsigned int order) 


alloc _page 函数 调用 alloc ”pages 函数 ,其 order 参数 为 0 
alloc _ pages 函数 的 执行 流程 如 图 7-6 所 示 
alloe pages node 


alloc _pages 图 数 有 两 个 输 和 人 参数 ,分别 是 gfp _ mask 和 


order。 
get page from freelist 








属性 。 这 些 属性 包括 申请 的 空间 属于 哪个 Zone. 进行 空间 申 
请 时 是 否 阻 塞 当 前 进程 等 一 系列 属性 ， 

这 些 属性 在 .vincludevlinuxvgfp.h 文件 中 ,主要 属性 有 
GFP _ NOWAIT, GFP _ ATOMIC, GFP _ NOIO, GFP _ 
NOFS, GFP _ KERNEL, GFP _ USER, GFP _ HIGHUSER, 
GFP _ DMA,GFP _ DMA32 等 等 ,用 户 也 可 以 根据 实际 需要 对 ”图 76 alloe- peges 执行 流 各 

GFP 开头 的 宏 进 行 组 合 获得 一 些 特 殊 的 gfp_ mask ,不 过 这 
种 机 会 非常 少 。 

(2) order 参数 。order 参数 用 来 描述 申请 空间 的 大 小 , 当 order 参数 为 0 时 ,表示 所 申请 的 
空间 为 一 个 物理 页 面 ,为 1 时 表示 所 申请 的 空间 为 两 个 物理 页 面 ,并 以 此 类 推 ，order 参数 的 
最 大 值 为 MAX__ORDER.: 

如 图 7-6 所 示 ,alloc ”pages 国 数 将 调用 一 系列 图 数 ， 其 中 alloec _ pages 国 数 最 为 重要 ， 
该 函数 使 用 Buddy 算法 ,在 当前 数据 区 域 Zone 的 free _ area 数组 中 ,找到 合适 的 物理 地 址 连续 
的 空间 。 该 函数 的 源 代码 在 . /mm/page alloc.c 文件 中 ,其 源 代码 详解 如 下 : 

struct page * fastcall 
_ alloc_ pages(gfp_t gfp_ mask; unsigned int order, struct zonelist * zonelist) 
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(1) gfp mask 参数 。gfp mask 参数 描述 所 申请 页 面 的 


wakeup kswapd 









const gfp_t wait = gfp_mask & _GFP_ WAIT; 
StrUct ZAMe PR 

struct page * page; 

struct reclaim _ state reclaim _ state; 

struct task struct *p = Current; 

mt do retry; 


restart: 
z 三 zonelist- >zones; /# the list of zones suitable for gfp_mask */ 


if (unlikely( ¥z == NULL)) | 
7# Should this ever happen?? */ 
return NULL; 


page = get_page _from _ freelist(gfp_ mask|_ GFP_ HARDWALL, order, 
zonelist, ALLOC_ WMARK LOWIALLOC _ CPUSET); 
if (page) 
EOLO got _ pg; 
这 段 代码 首先 检查 当前 使 用 的 数据 区 域 Zone ， 如 果 这 上段 数据 区 域 有 效 , 则 调用 get _ page 
_ from _ freelist 孙 数 ,使 用 Buddy 算法 ,在 图 7-5 所 示 的 空闲 物理 内 存 季 中 分 配合 适 的 空间 。 
如 果 找 到 合适 的 物理 页 面 , 则 跳 转 到 got _pg 标签 处 执行 ,否则 执行 以 下 程序 : 


for (z = zonelist- > zones; ¥z: Z 十 十 ) 
wakeup _ kswapd( * z, order); 

如 果 get _ page _ from freelist 函数 设 有 找到 合适 的 物理 页 面 , 则 page 参数 为 NULL, 入 
示 在 free _areal MAX_ ORDER ,数组 中 没有 大 小 合适 的 物理 页 面 。 此 时 Linux 内 核 将 唤醒 
kswapd 监护 进程 ,对 物理 内 存 进行 碎片 整理 ,并 将 Buddy System 中 互 为 伙伴 关系 的 空闲 物理 
页 面 组 成 一 个 更 大 的 页 面 

alloc _ flags = ALLOC_ WMARK _ MIN; 


if ((unlikely(rt_ task(p)) && lin _ interrupt()) || lwait) 
aloc _ flags | = ALLOC HARDER:; 


if (gfp_ mask & _ GFP._ HIGH) 
alloc_ flags | = ALLOC _ HIGH: 


if (wait) 
alloc _ flags | = ALLOC CPUSET:; 
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page = get page_ from freelist(gfp_ mask, order, zonelist, alloe flags); 
if (page) 
EOLtO got _ pg: 


使 用 kswapd 监护 进程 完成 物理 内 存 整 理 后 ,物理 内 存 块 被 重新 整理 。 完 成 这 个 操作 后 ， 
Linux 系统 有 可 能 会 整合 出 一 些 较 大 的 物理 地 址 连续 内 存 空 间 , 此 时 该 函数 再 次 调用 get _ 
page _from _ freelist 图 数 ,在 空闲 物理 内 存 字 中 分 配合 适 的 空间 . 


rebalance: 
cond _ resched( ) ; 
did_ some progress = try_ {1t0_ free pages(zonelist- > zones, gfp_ mask); 


if (likely(did_ some_ progress)) | 
page = get_page_from freelist(gfp_ mask, order, zonelist, alloc _ flags); 
if (page) 
goto got _ pg; 
| else if ((gfp_mask & __ GFP_FS) && 1!(gfp_mask 区 GFP_ NORETRY)) | 
page = get_page_ from freelist(gfp_ mask| _ GFP_HARDWALL, order, 
zonelist, ALLOC _ WMARK _ HIGH| ALLOC _CPUSET ) ; 
if (page) 
goto got _ pg; 


out_of_ memory(zonelist, gfp_ mask, order); 
Eoto restart: 


如 果 使 用 kswapd 监护 进程 完成 物理 内 存 整理 后 ,get _ page _ from _ freelist 国 数 仍然 不 能 在 
空闲 物理 内 存 池 中 找到 大 小 合适 的 空间 , 则 调用 try _ to _ free _ pages 函数 ,继续 释放 一 些 物理 内 
仔 , 之 后 再 次 调用 get_ page _ from _ freelist 函数 ,在 空闲 物理 内 存 池 中 分 配合 适 的 空间 。 如果 此 
时 get _page from freelist 函数 返回 值 依 然 为 NULL, 则 调用 out_ of _ memory 函数 ,表示 在 当前 
空 亲 物理 内 存 池 中 没有 合适 的 物理 空间 

Linux PowerPC 支持 男 外 一 组 函数 申请 物理 连续 的 页 面 空间 ,分 别 为 _ get _ {free _ page 
图 数 、_get _ free _ pages 图 数 和 _ get dma _ pages 函数 。 这 组 函数 的 人 口 参 数 与 alloc 
pages 国 数 的 人 口 相 同 。 在 这 组 函数 中 ,将 调用 alloc _ pages 函数 申请 物理 地 址 连续 的 页 面 空 
辐 。 这 组 国 数 与 alloc _pages 函数 不 同 之 处 在 于 函数 返回 值 ,这 组 函数 的 返回 值 为 物理 内 存 的 
虚拟 地 址 。 

3. 物理 地 址 连续 页 面 的 释放 

物理 地 址 连续 页 面 的 释放 是 申请 的 逆 过 程 : 在 Linux PowerPC 中 ,使 用 free _ pages 国 
数 、_free_ page 函数 ,free _pages 国 数 和 free _ page 图 数 完成 这 一 过 程 。 这 些 函 数 的 原型 定 
义 如 下 所 示 。 
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void free_ pages( unsigned long addr, unsigned int order) 
# define free_ page(laddr) free_ pages( (addr) ,0) 


void _ free_ pages(struct page * page, unsigned int order) 
#define __ free_ page(page) __ free_ pages( (page), 0) 
free _ pages 国 数 和 free _ page 函数 用 于 物理 页 面 的 释放 ,是 ”get free pages 函数 和 
get _ free _ page 国 数 的 逆 过 程 , 其 人 口 参 数 addr 为 虚拟 地 址 - 而 free pages 图 数 和 free _ 
pages 图 数 与 alloc _ pages 函数 和 alloc _ page 函数 相对 应 ,其 人 口 参数 page 为 指向 页 表 的 指 
针 。 这 些 与 释放 物理 页 面 有 关 的 函数 调用 关系 如 图 7-7 所 示 ， 















free Pages 





图 7-7 free_page 系 列 函数 调用 关系 图 


由 上 图 所 示 ,free _ page 系列 国 数 最 终 调用 free pages 函数 ,完成 物理 地 址 连续 的 页 面 
释放 ，_ free _ pages 函数 的 定义 在 ./mm/page alloc.c 文件 中 ,该 函数 的 源 代码 如 下 所 示 ， 


fastcall void _ free_ pages(struct page * page, unsigned int order) 


1 


1 
让 《put page _ testzero(page) ) | 


if (order == 0) 
free_ hot _ page( page):; 
else 


_ {free_ pages ok(page, order); 
| 
| 


_ free _ pages 国 数 首先 调用 put _ page _ testzero 函数 ,检查 当前 页 表 描 述 符 page 的 引用 
计数 ,并 将 _ count 减 一 。 如 果 _ count 的 值 不 为 零 ,表示 在 当前 系统 中 ,还 有 其 他 程序 使 用 当 
前 物理 页 面 , 此 时 free_pages 函数 将 直接 返回 ;否则 该 函数 调用 free _ hot _page 函数 或 者 _ 
free _pages _ ok 因数 释放 物理 页 面 。 

free _pages 遇 数 调用 free _ hot _page 函数 释放 一 个 物理 页 面 ,否则 调用 “free pages 
ok 函数 -。 在 Linux 系统 中 ,最 经 常 使 用 的 是 对 一 个 物理 页 面 的 申请 和 释放 操作 。 为 此 ,Linux 
系统 采用 了 一 些 优化 措施 ,本 书 将 在 下 文 介绍 这 些 内 容 。 

如 有 果 “free _ pages 图 数 释 放 多 个 页 面 ,将 调用 _ free _ pages _ ok 力 数 。 free pages 
ok 图 数 在 ./mm/page _ alloc.c 文件 中 ,该 函数 调用 free one page 函数 ,释放 多 个 物理 地 址 
连续 的 页 面 。 在 多 个 物理 地 址 连续 页 面 的 释放 过 程 中 ,Buddy System 将 对 物理 页 面 进行 整 
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合 , 将 互 为 Buddy 关系 的 物理 页 面 , 整 合 为 一 个 更 大 的 物理 页 面 ， 

Linux 系统 调用 free_one _bpage 铺 数 时 ,十 要 使 用 local _ irg _ save 图 数 和 local _ irq _ re- 
store 阔 数 进行 保护 ,因此 在 执行 free _one page 困 数 将 不 允许 外 部 中 断 。 

Buddy 算法 进行 页 面 合并 时 ,在 最 恶劣 的 情况 下 ,耗费 的 时 间 较 长 ,因此 这 种 做 法 将 在 东 
种 程度 上 影响 系统 的 响应 速度 。__ free _ pages _ok 函数 的 源 代码 如 下 所 示 : 


static void free pages_ ok(struct page * page, unsigned int order) 
| 


unsigned long flags; 
int 1 
int reserved = OO; 


local _ irg _ save( flags); 

__ count_vm_ events(PGFREE, 1 << order); 
free _one page(page_ zone(page), page, order); 
local _irq_ restore( [lags); 


| 


free pages _ok 抑 数 调用 free_one_page 一 > free_one _ page 国 数 ,完成 多 个 物理 地 
址 连续 页 面 的 释放 ， free_one_ page 函数 的 主要 源 代 人 码 如 下 也 示 : 


sratic inline void __ free_ one_ pagel(struct page * page, 
struct zone * zone, unsigned int order) 


unsigned long page _ idx; 
int order size = ] << order; 


ff (unlikely( PageCompound( page) ) ) 
destroy _ compound _ page( page, order): 


page _idx = page_ to_ pfn(page) & ((1 << MAX _ ORDER) 一 1):; 


VM _ BUG _ ON(page_idx & (order size 一 1)); 
VM _BUG ON(bad range(zone, page) ) ; 


zone- 之 free pages += order size; 
while (order < MAX ORDER—1)| 
unsigned long combined _ idx; 
struct free area * area; 
struct page *¥ buddy; 


buddy = _ page_ find_ buddy(page, page _ idx, order); 
这 (1 page _ is_ buddy(page, buddy, order)) 
break; /# Move the buddy up one level. * 7 
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list _ del( &buddy- >1ru); 
area = zone->free area + order; 
area- >nr_ free 一 一 ; 
trmv_ page _order(buddy) ; 
combined idx = find_combined index(papge _ idx, order); 
page = page + (combined idx 一 papge _ idx); 
page _ idx = combined _ idx; 
order ++ ; 
| 
set _page order( page, order); 
list_ add( &page- >lru, &@zone->free_ areal order|. {ree_ list); 
zme- >free areal order|.nr free+ 十 ; 


free _one _page 函数 是 多 个 物理 地 址 连续 页 面 释放 的 关键 。 此 函数 将 依次 扫 拉 存放 在 
free _ arcal MAX ORDER ] 数 组 中 各 种 物理 地 址 连续 的 内 存 页 面 , 然 后 将 彼此 为 Buddy 关系 
的 物理 页 面 重组 为 更 大 的 物理 地 址 连续 页 面 

在 最 恶劣 的 情况 下 ,释放 一 个 物理 地 址 连续 的 两 个 页 面 ,最 多 要 进行 MAX_ ORDER-2 次 
页 面 合 并 ,这 将 耗费 处 理 器 较 长 的 时 间 。 因 此 用 户 在 编写 Linux 设备 驱动 程序 时 ,应 尽量 避免 
申请 以 及 释放 多 个 物理 地 址 连续 的 页 面 

”free _one _ page 函数 调用 “page _ find _ buddy 图 数 ,寻找 当前 物理 页 面 的 Buddy 页 
面 ,并 使 用 page is _buddy 国 数 确 定 当前 物理 页 面 与 当前 页 面 是 否 互 为 Buddy 关系 。 在 这 两 
个 函数 的 注释 中 ,清楚 地 介绍 了 如 何 确定 当前 物理 页 面 的 Buddy 页 面 , 以 及 如 何 确 定 物理 页 
面 的 Buddy 关系 。 这 两 个 图 数 的 注释 如 下 : 

/# 
关 Locate the struct Page for borh the marching buddy in our 
* pair (buddyt) and the combined O(n + 1) page they form (page). 


* 1) Any buddy Bl will have an order O twin B2 which satisfies 
* the following equation: 

* B2 = Bl (1 << oO) 

# For example, if the starting buddy (buddy2) is #8 its order 
#* 1 buddy is #10: 

T= -1 < 1 三 8 2= 10 


* 2) Any buddy B will have an order OQ+ 1 parent P which 
* satisfies the following equation: 
* P=Be~{1l << OO) 


* Assumption: *_ mem _ map is contiguous at least up to MAX% _ ORDER 
其 
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static inline struct Page * 
_ page_ find_ buddy(struct page * page, unsigned long page_ idx, unsigned int order) 
| 


# This function checks whether a page is free 有 is the buddy 
# We can do coalesce a page and its buddy 让 

* (a) the buddy is not in a hole 莱 贡 

* (b) the buddy is in the buddy system 芒 必 

¥ {c) a page and its buddy have the same order 必 有 & 

* (d) a page and its buddy are in the same zone. 


* For recording whether a page is in the buddy system, we use PG _ buddy. 
* Setting, clearing, and testing PG_ buddy is serialized by zone- > lock. 


* For recording page s order, we use page _ private( page). 
¥ A 


static inline int page _ is_ buddy( struct page * page, struct page * buddy, 
int order) 

| 

| 


` 4. 单个 物理 页 面 的 申请 与 释放 

Linux 系统 使 用 get _ page _ from _ freelist 函数 申请 物理 页 面 。buffered _ rmqueue 函数 是 
get _ page _ {from _ freelist 函数 的 主体 。buffered rmqueue 函数 能 够 申请 单个 或 者 多 个 物理 地 
址 页 面 连续 的 空间 ， 

buffered _ rmqgueue 函数 对 单个 物理 页 面 的 申请 进行 了 额外 处 理 。 该 函数 申请 单个 物理 页 
面 时 ,首先 从 当前 数据 区 域 Zone 的 per _ cpu ”pageset 参数 中 ,直接 获得 所 需要 的 物理 页 面 ,而 
不 击 要 使 用 Buddy 算法 搜索 当前 数据 区 域 Zone 的 free area[l MAX ORDER 内 存 池 ， 当 前 
效 据 区 域 Zone 的 pcp(per _ cpu _ pageset) 参 数 也 称 作 单个 物理 页 面 缓冲 池 . 

buffered -rmqueue 函数 的 源 代码 在 . /mm/Apage _ alloc.c 文件 中 ,如 下 所 示 : 


static struct page * buffered _ rmqueue(struct zonelist * zonelist, 
struct zone * zone, int order, gfp_+t gfp_ flags) 
| 
unsigned long flags; 
struct page * page; 
int cold = !!l (gfp_ flags &@ _ GFP_ COLD); 
int cpu; 


again: 
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cpu = get_ cpu(); 
if (likely(order == 0)) | 
struct per _ cpu_ pages * pcp; 


pep = 攻 zone _ pcp(zone, cpu)->pcpl cold|; 
local _ irg_ savel flags); 
if (1 pcp- 之 count) | 

Pep->count = rmaqueue _ bulk(zone, 0, 

pep- 之 batch， 必 pcp- 庆 list); 
f (unlikely( | pep-: > count)) 
goto failed; 

| 
pape = list_ entry(pep- > list. next, struct page, lru); 
list _ del( &page- > 1ru); 
pop- > count —— ; 


通过 这 段 代码 ,可 以 发 现 当 order 等 于 0, 即 申请 单个 物理 页 面 时 ,buffered rmaqueue 国 数 
将 在 当前 数据 区 域 Zone 的 per _ cpu _ pages 参数 中 获得 所 震 要 的 空间 ,其 执行 流程 如 下 : 

(1) 首先 该 函数 将 检查 在 当前 数据 区 域 的 zone->per _ cpu pageset- > pcp 中 ,是否 有 空 
朵 的 物理 页 面 , 即 pcp 一 >count 参数 是 否 为 0 

(2) 如 果 pcp ->count 参数 为 0, 表示 在 当前 数据 区 域 Zone 的 pcp 参数 中 ,没有 空闲 的 物 
理 页 面 ,此 时 需要 调用 rmnqueue _bulk 函数 ,从 当前 数据 区 域 Zone 的 free _ areaLMAX _OR- 
DER | 中 获得 多 个 物理 页 面 填充 到 pcp 中 同时 更 新 pcp 一 > count 

(3) 从 pcp 队列 中 获得 所 需 的 单个 物理 页 面 , 然 后 将 该 物理 页 面 从 pcp 队列 中 摘除 ,并 更 
新 pcp 一 >count 参数 。pcp 队列 使 用 lru 指针 ,将 当前 pcp 的 所 有 空闲 物理 页 面 组 成 一 个 双 癌 
链表 


| else | 
spin_ lock _ irgsave( 态 zone- > lock, flags); 
page = __ rmgueue(zone, order); 
spin _ unlock( &zone- > lock) ; 
if (1 page) 
goto failed; 


return page; 
failed: 
local _ irq _ restore(flags); 
put _ cpu( ); 
return NULIL: 
| A/* End buffered rmqueue */ 


如 果 order 不 等 于 0, 即 申请 多 个 物理 地 址 连续 的 页 面 时 ,该 函数 将 调用 rmqueue 图 效 ， 
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从 当前 数据 区 域 Zone 的 free _areaLMAX _ ORDER] 中 获得 多 个 物理 页 面 ,其 源 代 码 如 下 所 


人 : 


static struct page * __ rmgueuel struct zone * zone, unsigned int order) 


struct free area ¥ area; 

unsigned int current _ order; 

Struct page * page; 

for (current _ order = order; current order < MAX ORDER; ++current order) | 
area = zone->{ree area + current order; 
i[ (list_ empty( &area- >free list)) 


continue: 


page = list_ entry(area- > {ree_ list.next, struct page, lru); 
list _ del( &page- >1ru); 

rmv_ page _ order(page); 

area- >nr free 一 一 ; 

zohe- > {ree pages -= 1UL << order; 

expand(zone, page, order, current order, area); 

return page: 


| 


retur NULL; 


_ rmgqueue 图 数 根据 Buddy 算法 ,搜索 free _ areal order | 一 free areal MAX ORDER | 间 
的 物理 页 面 ,直到 获得 合适 的 物理 页 面 . 
Linux 系统 释放 单个 页面 时 ,调用 free hot page->free_ hot _ cold page 国 数 。 该 图 数 
的 源 代 码 详 解 如 下 : 
static void fastcall free_ hot cold _ pagel(struct page * page, int cold) 
| 


list _adqd( 芒 page->>lru， 必 pcp->1ist); 
Pcp- 之 count 十 十 ; 
让 《pep- 之 count >= pcp-> high) | 
free _ pages _bulk(zone，pcp- >batch, &pcp- > list, 0); 
pop- >count -= pep- > batch; 
| 
| 
由 以 上 源 代码 可 知 ,在 大 多 数 情况 下 , Linux 系统 释放 单个 物理 页 面 时 , 仅 需 要 将 这 个 物 
理 页 面 加 入 pcp 中 的 Iru 队列 中 即 可 。 只 有 在 pcp 中 的 空闲 物理 页 面 过 多 , 即 pcp ->count > 


= pcp 一 >high 时 , 才 会 调用 free _ pages _ bulk 函数 ,将 此 物理 页 面 按照 buddy 算法 释放 到 free 
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_areal MAX_ORDER 中 ,此 时 Linux 系统 才 会 对 物理 空间 进行 整合 

至 此 ,我 们 简单 介绍 了 如 何 使 用 Buddy 算法 进行 Linux 的 动态 物理 内 存 的 管理 。 可 以 发 
现 , 在 最 恶劣 的 情况 下 ,无 论 Linux 系统 分 配 还 是 释放 一 个 物理 页 面 ,都 有 可 能 引起 连锁 反应 、 
从 而 需要 大 量 的 处 理 器 时 间 。， 由 此 可 以 初步 判定 ,Buddy 算法 在 很 大 程度 上 并 不 适合 强 实时 
的 应 用 。Linux 系统 在 使 用 Buddy Svstem 系统 进行 物理 内 存 的 整合 时 ,将 关闭 外 部 中 汤 。 此 
时 将 影响 外 部 中 断 的 响应 速度 。 为 此 ,许多 公司 在 实现 自己 的 “实时 Linux 系统 "时 ,有 时 需要 
改变 物理 内 和 存 管 理 策 略 ， 

5. Buddy System 的 初始 化 

Linux 系统 共 分 两 个 步 又 完成 对 Buddy System 的 初始 化 :在 setup _ arch 函数 中 ,调用 
paging _init 图 数 ; 调 用 free _area _init core 一 >init currently _empty zone 一 >zone _init _ 
free lists 函数 ,对 Buddy Svstem 的 对 应 数据 区 域 Zone 中 的 free__area 结构 完成 初始 化 ,如 图 
7-4 所 示 。zone init _ free_ _ lists 函数 的 源 代码 如 下 所 示 : 


void zone init free_ lists(struct pglist data * pgdat, struct zone * zone, 
unsigned long size) 


int Order; 
for (order = 0; order < MAX ORDER ; order++ ) | 
INIT_ LIST HEAD(&zone- >free areal order|. free_ list); 


zone >free areal order|.nr free = 0; 


从 以 上 源 代 码 我 们 可 以 发 现 ,zone _init free _ lists 函数 执行 完毕 后 ,在 数据 区 域 zone 的 
free areal MAX_ ORDER ,中 ,并 没有 包含 任何 物理 页 面 , 在 free _ area 数组 中 ,空闲 页 面 的 
个 数 都 为 0。 此 时 的 初始 化 , 仅 是 对 数据 区 域 Zone 中 的 free _ area 结构 进行 基本 的 初始 化 。 

在 Linux 系统 中 .mem _init 国 数 对 Buddy Svstem 进行 真 正 意 义 上 的 初始 化 。 该 图 数 调 
用 free_all bootmem >free_ all bootmem _ core 函数 ,将 数据 区 域 Zone 中 free_ area 参数 进 
行 赋值 ,并 将 空闲 的 物理 页 面 一 个 个 地 放 人 对 应 的 free __area 链表 中 ,完成 对 free _ area 链表 
的 初始 化 ”mem init 函数 在 . /archypowerpcymmymem.c 文件 中 ,该 函数 在 Linux 系统 初始 
化 时 由 start _ kernel 晴 数 调用 . 

free _ all bootmem _core 国 数 将 对 每 - -个 物理 页 面 进行 检查 ,如 果 当 前 物理 页 面 没有 被 
使 用 ,该 函数 调用 free pages bootmem 一 > free_ page 函数 ,将 物理 页 面 一 个 个 地 释放 到 
Buddy Sytem 所 管理 的 物理 内 存 系统 中 , 即 加 入 到 free _ area 链表 中 

_ free _ page 了 尔 数 用 于 释放 单个 物理 页 面 在 Linux 系统 中 ,Buddy System 系统 没有 初 
始 化 完毕 之 前 .物理 内 存 将 由 Beot Memory 管理 。 此 时 ，_ free _ page 函数 将 释放 由 Boot 
Memory 管理 的 物理 页 面 ,然后 加 入 到 free _ area 参数 中 ， 

free all .bootmem _ core 函数 的 源 代码 在 ./mm/bootmem.c 文件 中 ， 该 函数 将 在 7.2.4 
节 中 详细 说 明 。Linux 系统 在 初始 化 free _ areal MAX _ ORDER | 管理 的 物理 内 存 空间 时 ,使 
用 free_ page 函数 将 空闲 物理 页 面 放 人 pcp->list 队列 中 的 , 当 此 队列 中 的 pcp- 之 count 参数 
大 于 pcp->high 参数 时 ,Linux 系统 使 用 free_ pages _ bulk 函数 将 free areal MAX ORDER, 
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中 的 物理 页 面 进行 整合 . 

由 于 在 Linux 系统 初始 化 时 , 绝 大 多 数 物理 页 面 都 是 物理 地 址 连续 的 ,因此 完全 没有 必要 
将 整个 空间 的 每 一 个 物理 页 面 逐 个 加 到 Buddy Svstem 管理 的 物理 内 存 中 ,这 种 做 法 的 效率 非 
前 低 。 不 过 似乎 Linux 的 维护 者 并 没有 太 多 的 精力 优化 初始 化 部 分 的 代码 如 朱 用 户 击 要 缩 
短 Linux 系统 的 启动 时 间 ,可 以 对 这 一 部 分 代码 进行 适当 修改 ,以 略微 提高 Linux 系统 的 启动 
速度 。 

在 Linux 系统 中 ,merm _init 函数 执行 完毕 后 ， Buddy 系统 被 初始 化 完毕 ,此 时 全 局 变量 
mem _ init _ done 将 被 置 为 1 ,之 后 Buddy System 将 开始 对 Linux 系统 的 物理 内 存 进 行 接管 . 
在 全 局 变量 mem _ init _ done 将 被 置 为 1 之 前 , 即 从 Linux 系统 开始 引导 到 mem _init 函数 结 
束 之 前 ,Linux 系统 不 能 使 用 本 节 中 的 函数 分 配 物理 内 存 , 而 必须 使 用 Boot Memory 进行 物理 
内 存 的 申请 与 释放 


7.2.4 Boot Memory 分 配器 


Linux 系统 在 启动 到 mem _ init 函数 执行 完毕 的 这 段 时 间 里 ,Buddy System 没有 初始 化 完 
毕 。 在 此 阶段 , Linux 系统 可 以 直接 访问 的 数据 空间 包括 Linux 内 核 的 data 段 ,bss 段 及 在 
sdata 段 中 的 数据 。 但 是 在 Linux 系统 进行 初始 化 时 ,有 时 不 可 避免 地 动态 申请 某 些 内 存 空 
司 ,因为 Linux 系统 不 可 能 将 所 有 数据 静态 地 链接 到 Linux 内 核 中 。 在 这 段 时 间 里 ,Linux 系 
Boot Memory 分 配器 管理 物理 内 存 的 算法 较为 简单 。 Boot Memory 使 用 FFB(First Fit 
Allocator) 算 法 管理 Boot Memory 物理 内 存 。First Fit Allocator 算法 使 用 位 图 (bitmap) 描 述 整 
个 物理 内 存 空间 。 其 中 ,位 图 中 的 每 一 位 对 应 一 个 实际 的 物理 页 面 ， 如 果 位 图 中 的 某 一 位 为 
1 时 ,表示 对 应 的 物理 页 面 已 被 使 用 ,为 0 表示 对 应 的 物理 页 面 未 被 使 用 
与 Buddy 算法 相 比 ,这 种 算法 十 分 简单 .这 种 算法 带 来 的 不 利 影响 是 ,系统 程序 员 使 用 
Boot Memory 申请 内 存 和 释放 内 存 操作 时 ,十 分 容易 在 物理 内 存 中 留 下 一 个 个 空洞 。 因 此 ,在 
使 用 First Fit Allocater 算法 进行 内 存 分 配 时 ,必须 十 分 小 心 
提醒 使 用 Boot Memory 分 配器 的 程序 员 注 意 ,要 小 心 使 用 Boot Memory 空间 。 绝 大 多 数 
在 系统 初始 化 中 使 用 的 Boot Memory ,将 不 会 被 释放 
Linux 系统 使 用 bootmem _ data 结构 ,对 Boot Memory 进行 描述 .在 上 文中 ,可 以 发 现在 
pg _ data _t 纺 构 中 ,包含 一 个 bootrmem _ data 结构 的 参数 bdata, 该 参数 用 来 保存 整个 存储 器 
万 点 的 Boot Memory 信息 。 
bootmem _ data 结 怕 的 定义 在 . /includeAinux/bootmem.h 文件 中 。 其 主要 参数 如 下 所 
A 站: 
typedef struct bootmem _ data | 
unsigned long node boot start; 
unsigned long node_ low _ pfn: 
void # node_ bootmem _ map; 
unsigned long last offset; 
unsigned long last _ pos; 


324 


unsigmned long last success; /*¥ Previous allocation point. To speed 
* up searching */ 
struct list _ head list; 
| pootmem _ data _ t; 


@ node _ boot _ start 参数 存放 Boot Memory 可 以 管理 的 第 一 个 物理 内 存 的 地 址 , 即 Boot 
Memory 的 起 始 地 址 。 这 个 地 址 在 Linux 核心 空间 之 后 : 
e@ node _ low _ pfn 参数 存放 Boot Memory 所 能 管理 的 最 后 一 个 物理 页 面 的 页 面 号 。 
node bootmem _ map 参数 存放 First Fit Allocator 算法 所 使 用 的 物理 内 存 位 图 信息 ,这 
个 物理 内 存 信 息 被 存放 在 Boot Memory 的 开始 处 . 
@ last -pos 参数 存放 上 次 分 配 的 Boot Memory 内 存 ,所 使 用 的 最 后 一 个 页 面 的 pfn。 
@ last _ offset 参数 存放 上 次 Boot Memory 内 存 分 配 结束 后 ,在 last _ pos 页 面 中 的 偶 移 。 
@ last success 参数 保存 上 次 Boot Memory 内 存 释 放 的 地 址 。last _ pos,last _offset 和 此 
参数 用 来 加 速 Linux 内 核 程 序 对 Boot memory 空间 的 申请 操作 。 
1. Boot Memory 的 初始 化 
Linux 系统 调用 setup _ arch 一 之 do _ init _ bootmem 国 数 对 整个 Boot Memory 进行 初始 化 ， 
do _ init -bootmem 函数 在 . /arch/powerpc/mm/mem.c 文件 中 。 
void _ init do_ init _bootmemtk void) 
| 
unsigned long i; 
unsigned long start，bootrmap _ pages: 
unsigned long total _ papes; 
int boot _ mapsize:; 


do _ init _ bootmem 函数 没有 输入 参数 ,也 没有 返回 值 ,该 函数 使 用 Linux 系统 的 全 局 变量 
对 Boot Mermorv 进行 初 始 化 | 


max_pfn = total _pages = lImb_end_of_ DRAM() >> PAGE SHIFT:; 
#ifdef CONFIG _ HIGHMEM 

total pages = total_ lowmem >> PAGE SHIFT:; 
# endif 

这 段 程序 的 执行 流程 如 下 : 

9 初始 化 max _ pfn 参数 和 total _pages 参数 。 其 中 max _ pfn 参数 存放 在 前 系统 中 最 大 
的 物理 页 面 号 ,而 toral _ pages 参数 存放 当前 系统 中 可 用 的 物理 页 面 数 量 。Linux 系统 
缺 省 认为 物理 内 存 从 零 开 始 编 址 。 在 多 数 情况 下 ,max _ pfn 参数 和 toral _ pages 参数 
的 值 相等 。 

@ 如果 Linux 系统 使 用 高 端 内 存 (HIGHMEM) ,do _ init -bootmem 国 数 调整 total _ pages 
参数 为 total lowmem>>PAGE SHIFT,total .lowmem 参数 存放 Linux 系统 低 端 内 
存 的 大 小 。Linux 系统 的 Boot Memory 不 能 管理 高 疹 内 存 , 因 此 这 段 程序 希 要 调 正 to- 
tal _pages 参数 。 
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A 
* Find an area to use for the bootmem bitmap. Calculate the size of 
* bitmap required as (Totral Memory) / PAGE _ SIZE / BITS_ PER_ BYTE. 
* Add 1 additional page in case the address isn t page — aligned. 
站 
bootmap “pages = bootmem bootmap pages(total pages); 


start = lmb_ aloc(bootmap _ pages << PAGE SHIFT, PAGE _ SIZE):; 


boot_ mapsize = init_ bootmem(start >> PAGE SHIFT, total_ pages); 

这 段 程序 的 执行 流程 如 下 : 

e 首先 调用 bootmem bootmap _ pages 函数 ,计算 在 当前 Linux 系统 中 ,一 共 需 要 多 少 内 
存 空间 ,保存 Boot Memory 的 位 图 信息 ,并 将 这 个 结果 存 人 booumap _ pages 参数 中 。 
boormem ”booumap pages 国 数 的 定义 在 .A/mm/boomem.c 文件 中 ， 

@ 然后 调用 lmb alloc 函数 为 Boot Memory 的 位 图 预 留 空间 . 

@ 使 用 init -bootmem 函数 将 从 0 到 total _pages 之 后 的 空间 进行 初始 化 ,该 函数 首先 将 
整个 Boot Memory 的 位 图 都 置 为 全 1, 即 所 有 内 存 都 已 经 被 使 用 ,同时 规定 Boot Memo- 
ry 的 可 用 内 存 从 start 变量 开始 。. 


A Add active regions with valid PFNs #*/ 

for (i = 0; i < lmb.memory. cnt; i++ ) | 
unsigned long start _ pfn, end _ pfn:; 
start_ pfn = lmb.memory. region|i|. base >> PAGE _ SHIFT: 
end_pfn = start_pfn + lmb size_ pages( 太 Imb.memory, i); 
add active_ range(0, start_ pfn, end_ pfn):; 

| 


“+ Add all physical memory to the bootmem map, mark each area 
# present. 
*/ 
#ifdef CONFIG_ HIGHMEM 
free_ bootmem with active_ regicons(0, total_ lowmem >> PAGE SHIFT); 
# else 
free bootmem with_active_ regions(0, max _ pfn); 
并 endif 
这 段 程 序 的 执行 流程 如 下 : 
9 使 用 add active _ range 图 数 ,将 当前 Linux 系统 所 使 用 的 数据 区 域 逐 个 加 到 early_ 
node _ map 表 中 
9 调用 add _ active _ range 函数 初始 化 early_node_map 表 ,该 表 存 放 当 前 存储 器 的 映像 ， 
free _ area _init _nodes 国 数 使 用 该 映像 .计算 当前 处 理 苍 系统 使 用 的 存储 器 的 大 小 和 
存储 器 之 间 的 空 润 
@ 使 用 free bootmem with _ active _regions 函数 ,将 所 有 在 earlv node map 表 中 的 物 
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理 内 存 再 次 释放 ,并 将 所 有 物理 内 存 的 描述 信息 放 入 Boot Memory 的 位 图 中 ,此 时 该 位 
图 中 的 所 有 位 被 清 零 , 表 示 所 有 Boot Memory 内 存 都 未 使 用 。 
/ # reserve the sections we re already using ¥* / 
for (i = 0; i < lmb. reserved. cnt; i++ ) 
reserve _ bootmem( Imb. reserved. region| i | . base, 
lmb size_ bytes( &lmb. reserved, 1)); 


上 述 程 序 使 用 reserve bootmem 函数 在 Boot Memory 管理 的 物理 地 址 空间 中 预 留 一 部 分 
空间 。 

在 Linux PowerPC 中 ,IBM 的 工程 师 创 造 了 LMB(Logic Memory Block) 结 构 , 用 来 管理 所 
有 物理 内 存 空间 。 对 LMB 有 兴趣 的 读者 ,可 以 阅读 ./arch/powerpc/mm/limb.c 文件 和 .Zin- 
cludevasm-powerpcvlmb.h 文件 ,本 书 对 此 不 做 介绍 -对 于 单 处 理 大 系统,LMB 纺 必 没有 太 大 
用 处 , 它 主 要 用 来 管理 多 处 理 硕 的 内 和 存 系统 。 

do _ init _bootmem 函数 将 以 下 几 个 空间 预 留 : 

@ Linux 内 核 的 text 段 ,data 段 和 bss 段 所 占用 的 空间 。 

se 0 一 0x4000 之 间 的 物理 地 址 空间 - 许多 PowerPC 的 内 核 , 如 603E,604EE ,使 用 这 段 空间 

作为 中 断 问 量 。 
e initrd 所 占用 的 物理 地 址 空间 ,这 段 空间 实现 初始 RAM Disk. 


A/¥ XXX need to clip this if using highmem? # 
sparse _ memory present with_ active regions{0):; 


init_ boormmem _ done = 1; 
| 


在 do_init _bootmenm 函数 的 最 后 ,将 init _ bootmem _ done 参数 置 为 1, 标志 整个 Boot 
Memory 初始 化 完毕 。 


2. Boot Vermory 的 分 


Linux 系统 使 用 宏 alloc _ bootmem ,申请 Boot Mem- 


ory 物理 地 上 址 空间 , 宏 alloc ”bootmem 的 定义 在 . /in- 
cludeAinux/bootmem.h 文件 中 。 该 图 数 调 用 图 7-8 中 


的 函数 ,实现 Boot Memory 物理 地 址 空间 的 分 配 。 

宏 alloc ”bootmem 最 后 调用 _ alloc _ bootmem _ 
core 图 数 , 在 Boot Memory 中 ,进行 物理 内 存 分 配 。 _ 
alloc ”bootmem _ core 函数 在 .mmybootmem.c 文件 
中 ,该 函数 的 详解 如 下 : 图 7-8 alloc ”bootmem 的 函数 调用 





_alloc bootmnem core 


void # __ init 

_ alloec bootmem _ core(struct bootmem _ data * bdata, unsigned long size, 
unsigned long align, unsigned long goal, unsigned long limit) 

| 
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unsigned long offset，remaining _ size, areasize, preferred; 
unsigned long i, start = 0, incr, eidx, end _ pfn; 


void * ret; 


__ alloc _ bootmem _ core 明 数 从 alloc ”bootmem 函数 中 继承 了 一 个 参数 size ,该 参数 用 来 
描述 从 Boot Memory 中 申请 的 空间 大 小 。 使 用 _ alloc .bootmem _ core 函数 申请 的 物理 地 址 
空间 以 Cache 行 对 界 。_ alloc_bootmem _ core 函数 首先 进行 参数 检查 ,在 此 过 程 中 ,将 主要 
对 Boot Memory 的 边界 ,如 size,align,node _ boot _start 参数 进行 边界 检查 ， 


Trestart Scan: 
for (i = preferred; i < eidx; i += iner) | 
unsigned long j; 
i= find next_ zero_ bit(bdata->node_ bootmem _ map, eidx, i); 
i = ALIGN(i, iner); 
if (i >= eidx) 
break:; 
if (test_ bit(i, bdata- >node_ boormem _ map)) 
CONtinue; 
for (j = i+ 1;j < i + areasize; + 十 j) 1 
i{ (i >= eidx) 
goto fail _ block; 
让 (test _ bit(j, bdata- >node_ bootmem _ map)) 
goto fail _ block:; 


start = 1; 
goto found; 
fail block: 
i 三 ALIGNG，incr); 


这 段 程 序 使 用 find _ next _ zero _ bit 函数 ,对 整个 Boot Memmory 的 位 图 进行 扫描 ,以 获 
得 合适 的 物理 页 面 。find_next zero _ bit 函数 使 用 了 PowerPC 处 理 器 的 “cntlzw” 指令 以 加 
速 扫 手 速 度 .“cntlzw” 指 令 能 够 极 大 地 提高 位 图 的 扫描 速度 ， 


found: 
bdata- >l]ast success = PFN PHYS(start); 
BUG _ ON(start >= eidx); 


人 
关 Reserve the area now: 
站 
for (i = start; i < start + areasize; i++ ) 
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if (unlikely(test _and _ set _bit(i，bdata- >node_ bootmem _ map))) 
BUG( ) ; 
memset(ret, 0, size); 
return ret; 
| /A/¥ End _ aloc bootmem core */ 


这 段 程序 使 用 last _pos 参数 和 last _ offset 参数 ,获得 竺 申请 空间 的 地 址 。 最 后 更 新 Boot 
Memory 的 位 图 信息 ,将 从 Boot Memory 中 获得 的 数据 空间 清 等。 在 Buddy System 没有 初始 
化 完毕 之 前 ,Linux 系统 的 启动 程序 只 能 使 用 Boot Memory 空间 。 

除 此 之 外 ,用 户 如 果 需 要 大 段 物 理 地 址 连续 的 空间 ,也 可 以 使 用 alloc _ bootrmem 函数 在 
Boot Memory 中 申请 空间 。 

如 果 用 户 需要 的 物理 地 址 连续 的 空间 大 于 Buddy System 所 能 管理 的 最 大 物理 地 址 连 经 
的 空间 时 ,只 能 在 Linux 系统 启动 的 初期 ,使 用 alloc _ bootmem 国 数 申请 这 段 物 理 地 址 连 组 的 
内 存 空间 。 在 操作 系统 中 ,大 段 物理 地 址 连续 的 空间 十 分 珍贵 .而 且 十 分 有 限 

3. Boot Memory 的 释放 

与 Boot Memory 的 申请 过 程 相 比 , Boot Mormory 的 释放 过 程 较为 简单 。Linux 系统 使 用 
free -bootmem 函数 ,释放 Boot Memory 空间 。 在 Linux 系统 中 , free _ bootmem 函数 几乎 很 少 
被 使 用 。 一 般 来 说 ,使 用 alloc _ bootmem 函数 申请 的 空间 ,在 整个 Linux 系统 运行 中 ,一 直 有 
效 ,系统 程序 员 很 少 去 释放 这 段 空 间 。 

free ”bootmem 函数 调用 free_bootmem _core 函数 ,完成 Boot Memory 内 存 空间 的 释放 ， 
free -bootmem _ core 函数 在 .A/mm/bootmem.c 文件 中 。 该 函数 的 实现 十 分 简单 ,本 文 将 不 再 
对 这 上段 代码 进行 详细 介绍 , 绝 大 多 数 用 户 没 有 机 会 使 用 这 个 函数 

4. Boot Memory 的 清除 

Boot Memory 的 清除 不 同 于 Boot Memory 的 释放 。 所谓 Boot Memory 的 清 际 指 将 Boot 
Memory 位 图 中 没有 使 用 的 物理 页 面 去 除 ; 而 Boot Momory 的 释放 指 将 Boot Memory 位 图 中 
使 用 的 物理 页 面 去 除 。 

Linux 系统 使 用 free all bootmem 函数 ,将 Boot Memory 中 的 物理 页 面 清 除 。 该 函数 将 
逐个 遍历 Boot Memory 的 位 图 信息 ,并 分 析 所 有 物理 页 面 。 当 位 图 中 的 页 面 没 有 被 使 用 , 则 从 
Boot Memory 中 释放 此 物理 页 面 ,并 将 此 负面 加 入 到 Buddy System 管理 的 内 存 中 ,如 果 位 图 
中 的 页 面 正在 被 使 用 , 则 此 页 面 将 被 保留 - 

如 果 Linux 系统 在 进行 初始 化 时 使 用 alloc .bootmem 函数 分 配 了 一 段 物理 内 存 空间 ,而 
这 段 空间 并 没有 使 用 free _ bootrmem 函数 释放 ,那么 这 段 物理 地 址 空间 将 在 Linux 系统 运行 的 
生命 周期 中 一 直 存 在 。free all boormem 函数 在 ./mm/bootmem.c 文件 中 。 该 函数 没有 输 
人 参数 ,其 返回 值 为 从 Boot Memory 中 释放 的 所 有 物理 页 面 的 总 和 。 

free ”all boormenm 函数 将 调用 free all bootmem core 国 数 。free all bootmem core 
函数 也 在 . /mm/bootrmem.c 文件 中 ,其 主要 的 源 代码 如 下 所 示 : 

static unsigned long _ init free_ all _ bootmem _ core(pg _ data_ t * pgdat) 
| 

SHUCT pase 其 Page: 

unsigned long pfn; 
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boormem data_t *bdata = pgdat-> bdata: 
unsigned long i, count, total = 0; 
unsigned long idx; 

unsigned long * map’ 


int gofast = 0; 


free _ all _ bootmem _ core 图 数 的 返回 值 与 free all bootmem 图 数 的 返回 人 相同 ,其 输入 
参数 pgdat 为 处 理 需 系统 的 存储 器 节点 指针 。 


/# Check physaddr is O(LOG2(BITS PER LONG)) page aligned */ 

if (bdata- >node_ boot start == 0 || 
ffs(bdata- >node_ boot start) — PAGE SHIFT > ffs(BITS_ PER _ LONG)) 
gofast = 1; 

for (i = 0; i< idx; ) | 
unsigned long v = ~mapli / BITS_ PER LONG); 


if (gofast 扩 &@ v == 一 0UL) | 
int order; 


page = pfn_ to_ page(pfn); 

count += BITS_ PER LONG; 
order = ffs(BITS PER LONG) - 1; 
_ free pages_ bootmem! page, order); 
t+= BITS PER LONG, 

page += BITS_ PER _ LONG:; 

else if (vy) | 

unsigned long mi 


page = pfn_ to_ page(pin); 
for (m = 1; m && i < idx; m<<=1, paget++ , i++)!1 
放 (v 芒 mm) | 
Cotnt 十 十 ; 
_ free _pages bootimem(page, 0); 
| 
| 
| else | 
i 二 = BITS_ PER _ LONG; 
| 
pftn += BITS_ PER __ LONG:; 
| 


total += count; 
free _ all _ bootmem _ core 函数 的 主要 作用 是 ,清除 在 Boot Memory 中 的 物理 页 面 。 在 这 
段 程序 中 ,设计 者 为 了 提高 Boot Memory 物理 页 面 的 清除 速度 ,使 用 了 一 个 相对 快速 的 算法 。 
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这 个 算法 ,在 某 种 程度 上 ,并 不 完美 
@ 在 这 段 程序 中 ,首先 检查 Boot Memory 的 起 始 地 址 是 否 为 多 个 页 面 对 界 。 对 于 32 位 探 
作 系 统 , 当 起 始 地 址 为 32 个 页 面 物理 地 址 连续 时 ,gofast 参数 为 1。 此 时 ,该 函数 可 以 
一 次 检查 32 位 的 位 图 信息 。 如 果 在 位 图 中 ,所 有 32 位 都 为 0, 该 函数 将 一 次 释放 32 个 
物理 页 面 。 如果 在 这 个 32 位 的 位 图 中 ,有 一 位 不 为 0, 则 表示 在 这 个 位 图 摘 述 的 32 个 
页 面 中 ,至 少 有 一 个 页 面 被 使 用 。 此 时 ,该 函数 将 逐个 检查 32 位 的 位 图 ,并 将 未 使 用 的 


物理 页 面 释 放 
e@ 由 上 文 得 知 ， free ”pages ”bootrmem 国 数 将 由 Boot Memory 管理 的 空间 加 人 到 Buddy 
System 中 ， 
入 


x Now free the allocator bitmap itsel{, it's not 
# needed anymore: 
Cad 
page = virt_ to_ page(bdata->node_ bootmem _ map); 
count = 0; 
idx = (get_ mapsize(bdata) + PAGE _ SIZE- 1) >> PAGE SHIFT: 
for (i = 0; i < idx; i++ , page++ ) | 
_ free_ pages_ bootmem(page, 0); 
count ++ ; 
| 
total += count; 
bdata- >node_bootmem map = NULL.; 


return total; 
| /x End free_all bootmem core */ 


free al] ”bootmem core 函数 清除 Boot Memory 的 物理 页 面 空间 后 ,将 释放 物理 页 面 的 
位 图 信息 , 即 bdata 一 >node _ bootmem_ map 占用 的 物理 页 面 空间 。 最 后 ,将 所 有 被 释放 的 物 
理 页 面 数 存 人 total 变量 中 返回 。 


7.3 Slab 分 配器 


7.2 节 详 细 介 绍 了 基于 页 面 的 物理 内 存 管理 策略 Buddy System, 该 策略 是 Linux 系统 内 
存 管理 的 基础 .但 是 Linux 系统 使 用 的 内 存 大 小 往往 不 足 一 个 页 面 , 如 果 仍 然 使 用 Buddy 
System 提供 的 操作 函数 进行 页 面 申 请 ， 物理 内 存 将 不 能 被 充分 利用 ， 采用 这 种 做 法 将 会 在 
Linux 系统 中 留 下 许多 碎片 ,因为 Buddy Sytem 中 内 存 的 最 小 单位 为 一 个 物理 页 面 ,即使 应 用 
程序 只 需要 申请 32 个 字 节 大 小 的 数据 , Buddy System 也 将 提供 一 个 4 KB 的 完整 物理 页 面 。 
为 此 Linux 系统 引信 了 Slab 分 配器 (Slab Allocator) 申 请 小 块 物理 内 存 空间 

Slab 分 配器 首先 在 Solaris 系统 中 使 用 。Linux 系统 在 2.2 版 本 中 ,就 开始 使 用 这 种 物理 
内 存 管 理 策略 。 与 其 他 的 内 存 分 配器 相 比 ,Slab 分 配 咽 有 许多 优点 ,如 下 所 示 : 
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e Slab 分 配器 将 内 存 分 解 为 一 个 个 较 小 的 数据 对 象 (Object) 进 行 管理 ,可 以 有 效 地 提高 内 


存 利 用 率 。 
e 在 Slab 分 配器 中 ,一些 在 Linux 系统 中 常用 的 数据 结构 ,可 以 使 用 专用 数据 对 象 , 而 普 
通 内 存 使 用 通用 数据 对 象 。 


e Slab 分 配 船 释放 数据 对 象 时 ,并 不 会 随意 释放 这 些 数据 对 象 ,而 是 将 这 些 数据 对 象 暂 存 
在 Slab 分 配 带 的 缓存 中 。 当 Linux 系统 重新 申请 这 些 数据 对 象 时 , Slab 分 配器 可 以 首 
先 从 这 些 缓冲 中 ,获得 数据 对 象 。 这 些 在 数据 缓冲 中 的 数据 对 象 , 不 需要 重新 进行 初始 
化 ,从 而 大 大 提高 了 Slab 分 配器 中 数据 对 象 的 申请 与 释放 效率 。 

e@ Slab 分 配 般 还 合理 利用 了 处 理 器 的 Cache。Slab 分 配器 尽量 让 相 邻 的 数据 对 象 使 用 不 
同 的 Cache 行 ,从 而 有 效 避 免 了 因为 Cache 颠 艇 而 引发 的 数据 利用 率 较 低 的 问题 。 

Slab 分 配 硕 基于 Buddy System 系统 ,但 是 在 多 数 情 况 下 ,Slab 分 配器 优先 使 用 自身 提供 
的 缓冲 区 ,尽量 减少 与 Buddy System 系统 的 交互 。Slab 分 配器 ,在 物理 内 存 中 ,维护 了 许多 组 
冲 区 。Linux 系统 将 这 些 缓冲 区 称 为 Cache。 提 醒 读 者 注意 ,Slab 分 配器 中 的 Cache 与 处 理 器 
内 部 的 物理 Cache 没有 任何 关系 。 

Linux 系统 又 将 这 些 Cache 分 割 成 为 一 个 个 slab 容器 ,每 一 个 slab 可 以 由 一 个 或 者 多 个 
物理 地 址 连续 的 页 面 组 成 ,slab 由 许多 个 数据 对 象 (object) 组 成 。 

在 Linux 系统 中 ,Slab 分 配器 的 数据 对 象 大 小 被 预先 定义 为 22、2*、...、2%、2” 字 节 等 。 
Linux 系统 允许 的 数据 大 小 在 .Mncludevlinuxykmalloc _ size.h 文件 中 定义 。 

Linux 系统 规定 ,在 Slab 分 配器 中 ,最 小 的 数据 对 象 大 小 为 一 个 物理 Cache 行 长 度 ,这 样 
做 的 目的 是 为 了 加 块 内 存 的 分 配 与 释放 速度 。PowerPC E500 内 核 的 Cache 行 长 度 为 2 字 
,因此 基于 E500 内 核 的 Linux PowerPC, 其 数据 对 象 的 大 小 为 2 的 整数 倍 。 读 者 可 以 使 用 
“cat 命令 查看 [proc/slabinfo 文件 ,获得 在 当前 系统 中 ,Slab 分 配器 所 管理 的 内 存 信息 。Linux 
系统 使 用 双 回 链表 将 大 小 相同 的 Cache 链接 在 一 起 。 

Cache,slab 和 object 的 逻辑 关系 如 图 7.9 所 示 。 


slabs_full slabs partial 


图 7-9 ”Cache 结构 图 


Slab 分 配器 包含 两 类 Cache, 分别 为 通用 Cache 和 专用 Cache。 在 Linux 系统 中 ,程序 申请 
普通 内 存 空间 时 ,使 用 通用 Cache; 申请 Linux 系统 常用 的 一 些 数据 结构 空间 时 ,将 使 用 专用 
Cache。 在 一 个 Cache 中 ,包含 三 个 slab 队列 ,分 别 为 slabs _ full、slabs _ partial 和 slabs _ free, 这 
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些 slab 队列 包含 一 系列 Slab 结构 。 其 中 每 一 个 结构 由 若干 个 数据 对 象 (Object) 组 成 ,Object 
征 Slab 分 配器 进行 内 存 分 配 的 基本 单位 。 


7.3.1 Slab 分 配 颖 的 主要 数据 结构 


在 Slab 分 配器 中 ,主要 数据 结构 有 kmem cache .cache sizes 和 slb。 

其 中 kmem _ cache 结构 对 Cache 进行 描述 ,该 结构 也 被 称 为 Cache 描述 符 ;cache sizes 结 
移 存 放 Slab 分 配 兰 中 的 通用 Cache; 而 slb 结构 描述 在 Cache 中 的 slab 

1. kmem _ cache 结构 

kmem _ cache 结 怕 包 含 了 Cache 的 全 部 描述 信息 ,该 结构 的 定义 在 ./mm/slab.c 文件 中 ， 
其 主要 数据 成 员 的 含义 如 下 : 


struct krnem cache | 
struct array _ cache * array| NR_ CPUS)|; 


array 参数 优化 Linux 系统 从 Cache 中 获取 和 释放 物理 内 存 的 速度 。 在 实现 数据 结构 
kmem _ cache 时 , Linux 系统 考虑 了 许多 硬件 Cache 的 细节 ， 现代 处 理 器 内 核 一 定 包 含 Li 
Cache, 而 必 片 设计 者 可 以 根据 具体 应 用 的 不 同 , 选 择 不 同 大 小 的 L2 Cache。 有 的 处 理 器 在 片 
内 不 包含 L2 Cache。 

为 此 ,Linux 系统 仅 根 据 L1 Cache 行 长 度 对 程序 进行 优化 。 在 Linux 系统 中 ,当前 处 理 器 
的 Cache 行 长 度 被 保存 在 宏 Ll1_CACHE _ BYTES 中 。 

在 Linux PowerPC 中 , 宏 Ll1_CACHE_ BYTES 的 定义 在 ./include/asm-powerpc/cache.h 
文件 中 ,其 值 为 32B, 即 256b。Linux 系统 针对 L1 Cache 结构 进行 了 许多 优化 ,其 主要 的 优化 
指 施 如 下 : 

(1) 将 一 个 结 愧 中 经 稼 使 用 的 数据 成 员 放 在 该 数据 结构 的 开始 处 。 在 kmem _ cache 结构 
中 ,array 参数 最 常用 

(2) 尽量 将 数据 成 员 按照 Cache 行 对 界 。 

(3) Linux SMP 系统 极力 避免 将 一 块 内 存 区 的 数据 分 散 放 人 不 同 CPU 的 LI Cache 中 ， 
虽然 使 用 MESI 算法 ,可 以 解决 LI Cache 的 共享 一 致 性 的 问题 ,但 在 并 行 算法 中 ,L1 Cache 颠 
稻 将 极 大 影响 整个 系统 的 效率 

Linux 系统 在 设计 数据 结构 kmem _ cache 时 ,首先 将 array 参数 放 在 最 开始 处 ,因为 在 每 
次 申请 和 释放 内 存 时 ,都 需要 使 用 array 参数 。 在 Linux 系统 中 ,array 参数 作为 Cache 的 组 
三, 保存 刚刚 被 释放 的 内 存 空 间 。 在 Slab 系统 申请 内 存 空 间 时 ,优先 使 用 存放 在 array 参数 中 
的 缓存 ;而 释放 内 存 空间 时 ,将 空间 直接 释放 到 array 中 。 

对 于 Linux SMP,array 数组 一 共有 NR _ CPUS 个 数据 成 员 , 目 的 是 为 了 将 Linux SMP 系 
统 的 每 个 处 理 器 申请 的 空间 放 人 各 自 的 array 中 ,从 而 这 些 数据 将 会 出 现在 各 自 处 理 器 的 LI 
Cache 中 ,以 减少 LI Cache 的 数据 颠 艇 。 

unsigned int batcheount:; 
unsigned int limit; 
unsigned int shared; 
unsigned int buffer size; 
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9 batchount 参数 表示 当前 Cache 为 空 时 ,需要 将 多 少 个 数据 对 象 (object) 加 人 到 Cache 
中 。 为 提高 效率 ,Linux 系统 一 次 将 多 个 数据 对 象 填充 到 Cache 中 。 

@ limit 参数 保存 当前 Cache 中 存放 的 数据 对 象 的 最 大 个 数 ,这 个 参数 可 调 ， 

@ shared 参数 表示 在 当前 Cache 中 ,有 多 少数 据 对 象 是 多 个 处 理化 共 旦 的 - 

buffer size 参数 保存 当前 Cache 数据 对 象 的 大 小 。 


struct kmem list3 * nodefistsL MAX NUMNODES | ; 
nodelists 参数 是 指向 kmem __ list3 结构 的 数组 指针 。kmem _ list3 结构 的 定义 在 .A/mm/ 


slab.c 文件 中 。 在 nodelists 数组 指针 中 ,包含 了 slabs full,slabs _ partial 与 slabs _ free 三 种 指 
针 , 以 提高 Slab 分 配器 管理 内 存 的 效率 。 


其 中 slabs ”full 指向 没有 空闲 的 数据 对 象 链表 ,slabs _ partial 指向 部 分 空 闪 ,部 分 不 空闲 


的 数据 对 象 链表 ,而 slabs _ free 指向 空闲 的 数据 对 象 链表 ， 在 一 个 Cache 中 ,包含 许多 Slab， 
在 这 些 Slab 中 ,又 包含 许多 数据 对 象 Object。 使 用 Slab 分 配器 ,进行 内 存 申 请 时 ,将 以 数据 对 
象 Object 为 基本 单位 进行 ， 


unsigned int flags; /x constant flags # / 

unsigned int num; /A* $ of objs per slab */ 

unsigned int gfporder; 

gtp _ + gf{pllags; 

Size _ £ colour; 

unsigned int colour _ off; 

struct kmem cache * slabp _ cache; 

unsigned int slab size; 

unsigned int dflags; 

void (ctor) (void ¥ , struct kmem cache * ，unsigned long); 
void (* dtor) (vold * , struct kmem _ cache * , unsigned long); 
const char * name; 


struct list head next; 


| A/# End kmem cache */ 


@ flags 参数 描述 当前 Cache 的 状态 

e num 参数 描述 在 当前 Cache 的 Slab 中 含有 和 多少 个 数据 对 象 。 在 同一 个 Cache 中 ,数据 
对 象 的 大 小 固定 。 

e@e gfporder 参数 存放 在 一 个 slab 中 物理 地 址 连续 页 面 个 数 的 对 数 ( 以 2 为 底 )。 例 如 ， 在 一 
个 slab 中 ,包含 8 个 物理 地 址 连续 的 页 面 , 则 该 参数 的 值 为 3 

e gfpflags 参数 存放 使 用 Buddy System 进行 页 面 申 请 时 的 状态 信息 ,其 含义 本 alloc - 
pages 明 数 的 gfp_ mask 相同 。 

e colour 参数 表示 在 当前 Cache 中 有 多 少 种 颜色 。 该 参数 用 来 优化 LI Cache。 

@ colour _ off 参数 确定 Slab 中 数据 对 象 之 间 的 间隔 。Slab 分 配器 设置 colour 参数 的 目的 
是 保证 在 同一 Slab 中 的 数据 对 象 , 尽 可 能 不 出 现在 一 个 物理 Cache 行 中 。 这 一 反 保 证 
了 Linux 系统 可 以 有 将 利用 硬件 Ll Cache。 
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9 slabp _ cache 参数 存放 Slab 描述 符 。 在 Linux 系统 中 ,Slab 描述 符 可 以 与 Slab 中 的 数据 
对 和 象 共 至 同一 空间 ,也 可 以 与 数据 对 象 的 空间 独立 。 如 果 Slab 描述 符 的 空间 与 数据 对 
象 空间 独立 , 则 slabp _ cache 参数 将 指向 Slab 描述 符 ,如 果 Slab 描述 符 的 空间 与 数据 对 
象 共享 同一 段 空间 , 则 slabp _ cache 参数 为 NULL 。 

9 ctor 和 dtor 参数 指向 当前 Cache 的 爸 造 与 析 爸 函数 。 在 Slab 分 配器 中 ,使 用 了 面向 对 
象 程序 设计 的 一 些 技术 。 如 果 这 两 个 参数 不 为 空 ,Linux 系统 在 创建 和 释放 数据 对 象 
时 将 目 动 执行 这 两 个 图 数 。 

9 name 参数 保存 当前 Cache 的 名 字 。 在 Linux 系统 中 ,不 同 的 Cache 不 能 使 用 相同 的 名 
字 , 因 此 必须 使 用 name 参数 加 以 区 分 。 

@ next 指针 指 同 下 一 个 Cache 摘 述 符 。 在 Linux 系统 中 .next 指针 将 所 有 Cache 组 成 一 
个 链表 。 

2. cache _ sizes 结构 

cache sizes 结构 的 定义 在 .vincludevlinuxvslab def.bh 文件 中 .该 结构 描述 Linux 系统 

中 的 通用 Cache, 其 源 代码 如 下 : 


/ # Size description struct for general caches. + / 
struct cache_ sizes | 

size_t cs _ Size; 

struct kmem _ cache * cs_ cachep; 

struct kmem cache * cs_ dmacachep; 
| 


9 cs size 参数 表示 当前 描述 Cache 的 大 小 - 在 Linux 系统 中 ,Cache 的 大 小 为 2 一 2 , 因 
此 es _ size 的 值 在 2 一 2 之 间 。 
cs _ cachep 和 es _ dmacachep 参数 指 问 Cache 描述 符 。 其 中 .es cashep 参数 描述 存放 在 
ZONE _NORMAL 数据 区 域 的 通用 Cache; cs dmacachep 参数 摘 述 存放 在 ZONE _ 
DMA 数据 区 域 的 通用 Cache。 
在 Linux 系统 中 ,所 有 通用 内 存 申请 ,如 kmalloc node ,kmalloc 和 kzalloc 等 函数 申请 内 存 
时 , 虱 将 使 用 通用 Cache- 在 Linux 系统 中 ,通用 Cache 最 为 请 用 。 因 此 Linux 系统 定义 了 一 
个 全 局 数组 malloc _sizes, 保存 所 有 大 小 不 同 的 通用 Cache, 该 全 局 数组 的 定义 如 下 : 
A 
* These are the default caches for kmalloc. Custom caches can have other sizes. 
并 
struct cache _ sizes malloc _ sizes[ ] = | 
# define CACHE(x) | .cs_ size = (x) |， 
#1inclode < linux/kmalloe sizes.h> 
CACHE( ULONG MAX) 


#1undef CACHE 
| 
这 段 代码 首先 对 宏 CACHE 重新 定义 .然后 使 用 kmalloc _ sizes.h 文件 .初始 化 全 局 数组 


malloc sizes 的 所 有 .cs size 参数 .而 CACHE(ULONG MAX) 存 放 malloc sizes 数组 的 结 
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束 标 志 。 在 malloc _ sizes 数组 中 ,静态 分 配 了 大 小 为 2 一 2 B, 一 共 13 个 cache _ sizes 结构 的 
数据 成 员 ,每 一 个 数据 成 员 包含 两 个 指向 Cache 的 指针 ,分别 为 cs _cachep 和 cs dmacachep。 
全 局 数组 malloc _ sizes 的 结构 如 图 7-10 所 示 。 


malloe sizes 


CS Size—2" 
slabs Po slabs full 
SLAB SLAB SLAB 
cs cachep ' Fmem. list3 
cs _ Size= 了 
cs dmacachep kmem list3 





图 7-10 malloc _ sizes 数据 结构 图 


在 Slab 分 配 盘 中 ,通用 Cache 根据 其 大 小 不 同 ,存放 在 malloc _ sizes 数组 的 相应 位 置 中 
例如 数据 对 象 的 大 小 为 2B 的 通用 Cache 存放 在 malloc _sizes[0 中 ;大 小 为 26B 的 通用 Cache 
人 存放 在 malloc _ sizesL1 中 ,并 以 此 类 推 。 专 用 Cache 并 不 存放 在 这 个 数组 中 ,而 是 独立 人 存放: 

3. Siab 描述 符 

在 Linux 系统 中 ,在 一 个 Cache 中 包含 许多 个 Slab,slab 结构 描述 这 些 Slab 的 属性 。slab 
结构 的 定义 在 ./mm/slab.c 文件 中 ,该 结构 的 详解 如 下 : 


struct slab | 
struct list_ head list: 
unsigned long colouroff:; 
void *s_ mem; A including colour offset * / 
unsigned int inuse; /A* num of objs active im slab ¥* / 
kmem bufct _ t free; 
Urisigned short nodeid; 

| 


@ list _head list 参数 将 Slab 组 成 一 个 链表 。 由 上 文 可 知 ,在 一 个 Cache 中 ,共有 三 种 Slab 
链表 ,分 别 是 slabs _ full,slabs partial 与 slabs _ free。 
@ colouroff 参数 摘 述 在 当前 Slab 中 第 一 个 数据 对 象 object 在 s_ mem 中 的 偏 移 ,其 地 址 为 


s mem+t colouroff. 
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@s_menm 参数 是 在 当前 Slab 中 第 一 个 数据 对 象 的 基地 址 。 

9 inuse 参数 搬 述 在 当前 Slab 中 有 多 少 个 有 效 的 数据 对 象 - 

@ [ree 参数 用 来 快速 查找 在 当前 Slab 中 的 空闲 数据 对 象 ,free 参数 指向 kmem _ bufctl 1 
数组 ,本 书 将 在 7.3.3 节 中 ,详细 介绍 kmem _bufctl tt 数组 。 

e nodeid 参数 描述 当前 Slab 的 ID 号 。 


7.3.2 Cache 的 管理 


Linux 系统 以 下 使 用 几 个 全 局 变量 ,初始 化 Slab 分 配器 中 的 Cache。 

(1) 全 局 变量 cache _ cache。cache cache 变量 是 一 个 kmem _ cache 数据 类 型 , cache 
cache 变量 是 Linux 系统 创建 的 第 一 个 Cache 摘 述 符 ， 

这 个 Cache 描述 符 存放 Linux 系统 其 他 的 Cache 描述 符 。 在 Slab 分 配器 初始 化 时 ,不 能 
使 用 Slab 分 配器 提供 的 操作 图 数 ,如 kmem cache create 国 数 ,创建 cache _ cache 变量 。 央 
为 此 时 ,Linux 系统 并 没有 将 Slab 分 配器 初始 化 完毕 。 

Linux 系统 必须 静态 初始 化 全 局 变量 cache cache。 在 Linux 系统 中 ,cache _ cache 属于 
专用 Cache 描述 符 , 该 Cache 描述 符 是 Slab 分 配器 创建 其 他 Cache 描述 符 的 基础 ,也 是 整个 
Slab 分 配器 的 基础 变量 。 该 变量 eache cache 在 . /mm/slab.c 文件 中 定义 ,其 源 代码 如 下 : 


A/* internal cache of cache description obis * / 
static struct kmem _ cache cache cache = | 
.batcheount = 1, 
.limit = BOOT CPUCACHE _ ENTRIES, 
.shared = 1, 
.buffer size = sizeof(stract kmem cache), 
.name = "kmem cache’, 
|; 

(2) 全 局 变量 cache _ chain,， 在 Linux 系统 中 ,所 有 Cache 描述 符 组 成 一 个 双 问 队列 ,全 局 
变量 cache _ chain 保存 该 队列 的 首 指针 。 在 Linux 系统 中 ,全 局 变量 cache _ chain 指向 的 第 一 
个 Cache 描述 符 为 cache cache, 因 为 在 Linux 系统 中 ,cache _cache 描述 符 是 第 一 个 Cache 摘 
述 香 。 

(3) 全 局 变量 cache _ chain _ sem。 该 变量 保存 访问 cache _ chain 链表 时 的 信号 量 。 

(4) 全 局 数组 malloc _ sizes。 该 变量 在 上 文中 曾 详 细 介 绍 ， 

Slab 分 配器 的 初始 化 使 用 了 以 上 这 些 全 局 变量 。Slab 分 配套 的 初始 化 由 以 下 主要 内 容 组 
成 。 

@ 初始 化 全 局 变量 cache _ chain,cache_ cache。 这 些 变 量 由 Linux 系统 静态 初始 化 。 

@ 初始 化 通用 Cache 描述 符 。 通 用 Cache 描述 符 主要 存放 处理 器 中 的 通用 内 存 , 所 有 的 
通用 Cache 摘 述 从 将 根据 数据 对 象 的 大 小 ,存放 在 相应 的 malloc _ sizes 数组 中 。Linux 
系统 调用 kmem _ cache _ init 图 数 ,初始 化 通用 Cache 摘 述 符 ， 

8 初始 化 专用 Cache 描述 符 。 在 Linux 系统 中 ,专用 Cache 描述 符 存 放 一 些 贡 用 的 数据 结 
购 , 如 signal, inode, mm struct 结 爸 等 。 在 Linux 设备 驱动 程序 中 ,可 以 建立 专用 
Cache 描述 符 ,将 一 些 使 用 频率 较 高 的 结构 ,人 存放 在 专用 Cache 摘 述 符 中 ,以 提高 放 备 蝶 
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动 程序 的 效率 。 与 通用 Cache 描述 符 不 同 ,专用 Cache 描述 符 不 加 人 到 malloc _ sizes 数 
组 中 ,而 是 使 用 专用 Cache 指针 维护 。Linux 系统 使 用 kmem _ cache _ create 函数 创建 
专用 Cache 摘 述 符 . 
1, 通用 Cache 的 创建 
Linux 系统 使 用 kmem _ cache _ init 函数 ,初始 化 Slab 分 配器 和 所 有 通用 Cache。 在 Linux 
系统 初始 化 时 ,该 函数 被 start _ kernel 函数 调用 ,其 源 代码 在 ./mm/slab.c 文件 中 。 该 函数 没 
有 输入 参数 也 没有 返回 值 , 源 代码 详解 如 下 : 
7/# kmem _ cache init 畏 数 源 代码 片段 1 */ 
void _ init kmem _ cache _ init(void) 
| 
Size t left _ over; 


struct cache _ sizes * sizes; 


for (i = 0; i < NUM _ INIT._ LISTS; i++) 1 
kmem list3 _ init(&initkmem list3|1i|):; 
if (i< MAX NUMNODES) 
cache_ cache. nodelists|i] = NULL: 


if (num _ physpages > (32 << 20) >> PAGE SHIFT) 
slab_ break gfp_ order = BREAK GFP_ ORDER _ HI: 


kmem _ cache _ init 国 数 在 Buddy System 系统 初始 化 函数 mem _ init 图 数 之 后 执行 。 由 
此 可 见 ,在 Linux 系统 中 ,Slab 分 配 侨 的 初始 化 在 Buddy System 的 初始 化 之 后 ,因此 在 kmem _ 
cache _init 图 数 中 ,可 以 使 用 Buddy System 中 提供 的 物理 页 面 的 申请 与 释放 函数 。 

在 这 段 代码 中 ,首先 将 全 局 变量 initkmem _list3 初始 化 ,这 个 全 局 变量 在 初始 化 全 局 变量 
cache _ cache 中 使 用 。 随 后 这 段 代码 将 cache _ cache 变量 的 nodelists 参数 置 为 空 。 在 UMA 
结构 中 ,MAX_NUMNODES 为 1. 

全 局 变量 num _ physpages 保存 在 当前 存储 器 系统 中 物理 页 面 的 数量 。 当 全 局 变量 num _ 
physpages 的 值 大 于 8 KB( 对 于 32 位 处 理 器 , 即 当 前 存储 器 的 内 存 大 于 32 MB) ,全 局 变量 slab 
_ break _gfp _ order 将 被 置 为 BREAK_GFP_ ORDER _HI, 否 则 该 全 局 变量 的 值 为 BREAK _ 
GFP _ ORDER _ LO。 全 局 变量 slab _ break_ gfp_ order 在 kmem _ cache _create 图 数 中 使 用 ， 
本 书 将 在 下 文 详细 介绍 kmem _ cache _create 孙 数 。 


A/# kmem _ cache init 隙 数 源 代码 片段 2 */ 


A 1) create the cache cache * / 

INIT_ LIST HEAD(&cache _ chain); 

list _ add( &cache cache. next， 些 cache chain); 

cache _ cache.colour off = cache line_ size(); 

cache cache, array| smp processor id()| = &@initarray _ cache. cache:; 
cache_ cache. nodelists| node| = &initkmem list3| CACHE CACHE |; 


338 


cache cache. buffer size = ALIGN(cache cache. buffer Size， 
cache _line sizel( )); 
cache cache. reciprocal _ buffer _ size = 
reciprocal value(cache _ cache. buffer size); 
这 段 程序 的 执行 流程 如 下 : 
(1) 创建 全 局 变量 cache ”chain, 并 将 cache _ cache 变量 加 入 到 cache _ chain 链表 中 
(2) 初始 化 全 局 变量 cache_ cache, 将 colour _off 的 值 初始 化 为 一 个 使 件 Cache 行 长 度 ,以 
尽 可 能 保证 相 邻 的 数据 对 象 不 会 在 同一 个 Cache 行 中 命中 。 
(3) 使 用 initarray _ cache.cache 初始 化 cache _ cache 的 array 参数 。 
(4) 使 用 initkmem list3 数组 初始 化 cache _ cache 的 nodelists 参数 。 initarray _ cache 要 
量 和 initkmem _ list3 数组 在 . /mm/slab.c 文件 中 ,这 两 个 变量 被 静态 初始 化 。 
(5) 最 后 将 全 局 变量 cache cache 的 buffer _size 进行 Cache 行 对 齐 ,buffer _size 的 但 在 
Linux 系统 加 载 时 置 为 sizeof(struct kmem _ cache) - 


/ax kmem _cache__init 函数 源 代码 片段 3 * 7 
for (order = 0; order < MAX_ ORDER; order++ ) | 
cache _ estimate(order, cache_ cache. buffer _ size, 
cache _ line _ size(), 0, &left _ over, &cache_ cache. num); 
if (cache _ cache, num) 


break: 


此 段 代码 使 用 cache estimate 函数 ,依次 从 Buddy System 物理 地 址 连续 的 页 面 中 估算 是 
否 有 存放 cache _ cache 所 雷 要 的 数据 空间 .并 计算 在 这 个 物理 地 址 连续 的 页 面 中 (可 能 是 1 个 
物理 地 址 连续 的 页 面 , 也 可 能 是 多 个 物理 地 址 连续 的 页 面 ) .可 以 存放 多 少 个 数据 对 象 ,并 将 此 
结果 存放 在 cache _ cache.num 参数 中 

同时 此 函数 将 剩余 空间 的 大 小 存 到 left _over 变量 中 。 在 Buddy System 中 .内存 分 配 的 
基本 单位 是 一 个 物理 页 面 ,因此 使 用 这 个 物理 地 址 连续 的 页 面 分 配 完 cache _ cache 变量 所 需 
要 的 空间 后 ,将 剩余 一 段 空 间 


/sx kmem cache _ init 阴 数 源 代码 片上 段 4 */ 
BUG ON(! cache _ cache. num); 
cache_ cache. gfperder = order; 
cache cache. colour = left_ over / cache_ cache. colour _ off; 
cache cache,slab size = ALIGN(cache _ cache.num * sizeof(kmem _ bufctl _ t) + 
sizeof( struct slab), cache line size( )); 


这 段 程序 完成 全 局 变量 cache _cache 的 最 终 初始 化 。 此 时 有 关 全 局 变量 cache _ cache 的 
初始 化 完全 结束 。 此 后 Linux 系统 可 以 使 用 cache _ cache 全 局 变量 ,通过 kmem _ cache __ cre- 
ate 函数 创建 其 他 Cache 描述 符 。 


“# kmem _ cache _ init 晴 数 源 代码 片段 5 */ 
/¥ 2+3) create the kmalloc caches * / 
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sizes = malloc sizes: 


names = cache names; 


广 怠 

* Jntialize the caches that provide memory for the array cache and the 

* kmem list3 structures first, Without this, further allocations will 

* bug. 

六 

sizes| INDEX _ AC],cs_ cachep = kmem cache create(names[ INDEX AC].name, 
sizes| INDEX _ AC]|.cs_ size, 
ARCH KMALLOC MINALIGN, 
ARCH KMALLOC FLAGSISLAB PANIC, 
NULL, NULL):; 


这 段 程序 首先 调用 kmem _ cache _ create 函数 ,创建 用 于 存放 “arraycache _ init 结构 所 需 
要 的 物理 空间 ”的 通用 Cache 描述 符 , 然后 根据 "arraycache _ init 结构 的 大 小 "将 这 个 通用 
Cache 摘 述 符 存 放 人 全 局 数组 malloc _ sizes 相应 的 队列 中 。Cache 描述 符 的 array 参数 .作为 
Cache 摘 述 符 的 缓存 ,使 用 arraycache _ init 结构 存放 . 

在 这 个 通用 Cache 描述 符 创建 完成 之 后 ,Linux 系统 可 以 使 用 Slab 分 配器 所 提供 的 函数 
为 其 他 Cache 描述 符 的 array 参数 在 Slab 分 配器 中 ,申请 内 存 空 间 


A# kmem _ cache _ init 钱 数 源 代 码 片 段 6 */ 
if (INDEX AC != INDEX 13) | 
sizes| INDEX 1L3|].cs_ cachep = 
kmem _ cache_ create(names| INDEX 13|.name, 

sizesl INDEX [3|.cs size, 
ARCH KMALLOC MINALIGN, 
ARCH KMALLOC FLAGSISLAB PANIC， 
NULL. NULL); 


如 果 kmem _ list3 结构 和 arraycache _init 结构 使 用 同一 个 通用 Cache 描述 符 ,不 执行 订 语 
可 ;否则 ,这 段 程序 进一步 创建 用 于 存放 “kmem _ list3 结构 所 需要 的 物理 空间 "的 通用 Cache 
搞 述 符 - 

在 Slab 系统 的 初始 化 中 , 源 代码 片段 5 和 6 比较 费解 ,这 两 段 代 码 涉及 了 一 个 “ 先 有 鸡 还 
是 现 有 和 蛋 "的 互 锁 问 题 。kmem _ cache _ create 函数 需要 使 用 kmalloc 函数 , 分 配 Cache 描述 符 
的 array 和 kmem _list3 结构 使 用 的 内 存 空间 ,而 kmalloc 函数 需要 在 通用 Cache 描述 符 建立 
之 后 才能 够 饿 使 用 . 

为 此 ,Linux 系统 调用 kmem _ cache _create 函数 创建 array 和 kmem _list 结构 ,以 及 创建 
通用 Cache 手 述 符 的 困 数 执行 路 径 ,与 创建 专用 Cache 描述 符 的 执行 路 径 并 不 相同 。 说 得 具 
体 些 ,就 是 kmem cache create 一 > setup _cpu _ cache 国 数 的 执行 路 径 不 同 。 

setup _ cpu _ cache 图 数 设置 了 一 个 全 局 枚 举 变量 g_cpucache _up。Linux 系统 使 用 了 这 
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个 全 局 变量 ,合理 解决 了 在 SLAB 分 配器 初始 化 时 ,存在 的 “ 先 有 鸡 还 是 现 有 蛋 " 互 锁 问 题 。g 
_ cpucache _up 变量 定义 如 下 ,其 初始 值 为 NONE 


static enum ] 
NONE， 
PARTIAL _ AC， 
PARTIAL 13, 
FULL 

| g_ cpucache _ up; 


下 文 结合 setup _ cpu _ cache 销 数 的 源 代码 说 明 g_ cpucache _ up 的 用 途 ， setUP _ CpU 
cache 图 数 的 源 代 码 许 解 如 下 : 


static int setup _ cpu_ cache(struct kmem cache * cachep) 
| 
i{ {g_ cpucache up == FULL) 
return enable cpucache( cachep); 


在 setup _ cpu _ cache 图 数 中 ,如果 g _ cpucache _up 变量 为 FULL, 则 执行 enable _ cpu- 
cache 录 数 ,该 函数 的 简要 说 明 见 下 文 。 在 Linux 系统 的 初始 化 过 程 中 ,array 和 kmem _ list 结 
愧 使 用 的 通用 Cache 描述 符 和 其 他 通用 Cache 描述 符 创 建 完 毕 后 ,g _ cpucache _ up 被 设置 为 
FULL. 由 此 可 见 Linux 系统 创建 专用 Cache 描述 符 时 ,一 定 使 用 enable cpucache 函数 


计 (g_ cpucache up == NONE) | 
cachep- >array| smp _ processor id()] = &initarray _ generic. cache; 


set up_ list3s(cachep, SIZE_ AC); 
i{ (INDEX AC == INDEX 13) 
gg_ cpucache up = PARTIAL 13; 
else 
g_ cpicache up = PARTIAL AC; 
| else | 
cachep- > array| smp _ processor _ id()| = 
kmalloc( sizeof(struct arraycache _ init). GFP_ KERNEL); 


if (g_ cpucache_up == PARTIAL AC) | 
set up list3s(cachep. SIZE 13):; 
g_ cpucache up = PARTIAL 1L3; 
| else | 
int node; 
for each online node(node) | 
cachep- > nodelists[ node] = 
kmalloc _ nodel sizeo{f{ struct kmem _ list3), 
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GFP KERNEL, node); 
BUG _ ON( |! cachep- > nodelists[ node | ); 
kmem list3 _ init(cachep- > nodelists[ node | ); 
| 
| 


| /# End serup cpu cache */ 


该 函数 的 主体 是 当 gg _ cpucache _ up 不 为 FULL 时 的 情况 ,这 段 程序 需要 针对 “条件 (g _- 
cpucache _ up == NONE) 为 真 或 者 为 假 " 两 种 情况 ,分 别 进行 讨论 

(1) 条 件 (g_ cpucache _ up == NONE) 为 真 ,表示 在 Linux 系统 中 ,还 没有 创建 通用 
Cache 摘 述 行 ,此 时 执行 这 段 代 码 一 定 是 为 了 创建 存放 arraycache _ init 结构 的 通用 Cache 描 
述 符 ，arraycache _ init 结构 使 用 的 通用 Cache 描述 符 是 Linux 系统 创建 的 第 一 个 Cache 描述 
和 从。 这 段 程序 执行 流程 如 下 : 

@ 在 创建 存放 arraycache _ init 结构 的 Cache 描述 符 时 ,g cpucache _up 一定 为 初始 值 

None。 此 时 Linux 系统 使 用 静态 变量 initarray ”generic.cache, 初 始 化 该 Cache 描述 符 
的 arraycache _ init 结构 ,而 不 是 使 用 kmalloc 国 数 . 在 Slab 分 配 兹 没有 初始 化 完成 时 ， 
无 法 使 用 kmalloc 哺 数 。 

@ 调用 set _up _ list3s 函数 ,初始 化 该 Cache 描述 符 的 kmem _list 结构 。set _up _ list3s 

哺 数 使 用 全 局 数组 initkmem _list3 ,初始 化 Cache 描述 符 的 kmem _ list 结构 ,不 能 使 用 
kmalloc 图 数 。 

@ 如果 INDEX AC 等 于 INDEX 13, 即 存放 arraycache _ init 结构 和 存放 kmem _list 使 

用 相同 的 通用 Cache 描述 符 , 此 时 将 gcpucache _ up 赋值 为 PARTIAL 13, 否 则 将 g 
cpucache _ up 赋值 为 PARTIAL AC。 

(2) 条 件 (g _ cpucache up == NONE) 为 假 , 表 示 arraycache _ init 结构 使 用 的 通用 Cache 
描述 行 已 经 创建 完毕 ,这 上 段 代码 用 来 创建 除 存放 arraycache _ init 结构 的 通用 Cache 描述 符 之 
外 的 所 有 通用 Cache 摘 述 符 。 这 段 程序 执行 流程 如 下 : 

@ 使 用 kmalloc 函数 ,创建 当前 Cache 描述 符 的 arraycache _ init 结构 。 此 时 由 于 存放 ar- 

raycache _ init 结构 的 通用 Cache 描述 符 已 经 创建 完毕 ,因此 可 以 使 用 kmalloc 函数 在 
SLAB 分 配器 中 ,申请 内 存 空间 . 但 是 kmalloc 函数 只 能 申请 arraycache _ init 结构 使 用 
的 内 存 空 间 ,因为 此 时 Linux 系统 并 没有 创建 其 他 通用 Cache 描述 符 。 

@ 如 果 g cpucache _ up 等 于 PARTIAL AC, 表示 存放 arraycache _ init 结构 和 存放 
kmem _ list 并 不 使 用 相同 的 通用 Cache 描述 符 。 因 此 需要 调用 set _ up _ list3s 图 数 初 
始 化 该 Cache 描述 符 的 kmem _ list 结构 ,并 将 g_ cpucache _ up 赋值 为 PARTIAL _L3。 

如 果 g cpucache_ up 等 于 PARTIAL AC, 表 示 存 放 kmem _list 结构 的 通用 Cache 质 
述 符 已 经 创建 完毕 。 此 时 这 段 程序 将 调用 kmalloc _ node 函数 (该 函数 与 kmalloc 函数 
类 似 ,都 用 来 申请 内 存 空间 ) 分 配 该 Cache 描述 符 中 kmem _ list 结构 的 内 存 空间 。 之 后 
这 上段 程序 调用 kmem _ list3 _ init 初始 化 kmem _ list 结构 。 

这 部 分 程序 是 SLAB 分 配器 的 难点 ,读者 需要 了 解 kmem _ cache _ create 和 kamlloc 函数 
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之 后 , 才 可 能 真正 理解 这 段 源 代码 .如 果 读 者 读 到 此 处 已 经 完全 理解 了 上 述 代码 的 全 部 含义 ， 
那么 可 以 略 过 7.3 节 。 

kmem _cache _ init 图 数 创 建 完 毕 用 于 存放 arraycache _ init 结构 所 需要 的 物理 空间 的 通 
用 Cache 描述 和 和 存放 kmem _ list3 结构 所 需要 的 物理 空间 的 通用 Cache 描述 符 后 ,将 执行 以 
下 程序 : 


/x kmem _ cache _ init 函数 源 代码 片段 7 #*/ 
slab early_init = 0; 


while (sizes->cs_ size 1|= ULONG MAX) | 
-A 
# For performance, all the general caches are L1 alipgned 
# This should be particularly beneficial on SMP boxes, as 让 
* eliminates {alse sharing . 
¥ Note for systems short on memory removing the alignment will 
# allow tighter packing of the smaller caches. 
关 A/ 
if (! sizes->cs_ cachep) | 
sizes->cs cachep = kmem cache create{names > name, 
Sizes- >Cs size, 
ARCH KMALLOC _ MINALIGN, 
ARCH _ KMALLOC FLAGS|ISLAB PANIC, 
NULL, NULL); 
| 


sizes->cs_ dmacachep = kmem _ cache _ create(names- > name _ dma, 
Sizes- CS size, 
ARCH KMALLOC MINALIGN, 
ARCH KMALLOC FLAGS|SLAB_ CACHE _ DMA| 
SLAB PANIC, 
NULL, NULL); 
SIZES 十 十 ; 
narmes 十 十; 
| 
上 述 代码 将 全 局 数组 malloc _ sizes 中 的 其 他 数据 成 员 进 行 初始 化 , 即 创建 其 他 剩余 的 通 
用 Cache 描述 符 。 注 意 此 时 ,存放 array 结构 和 kmem _ list3 结构 所 需要 的 物理 空间 的 通用 
Cache 描述 符 已 经 被 创建 完毕 ,因此 在 这 段 程序 需要 判断 sizes-> cs _ cachep 是 否 为 空 。 这 上段 
程序 的 执行 流程 如 下 : 
多 当 malloc sizes 的 cs _ size 参数 为 ULONG MAX 时 ,表示 当前 程序 已 经 完成 对 malloc 
_ sizes 数组 的 扫描 。 
9 这 段 代 码 将 为 malloc _ sizes 中 所 有 数据 成 员 的 cs _ cachep 链表 和 cs _dmacachep 链表 空 
问 建 立 对 应 的 Cache 描述 符 , 即 所 有 通用 Cache 描述 符 。 
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至 此 ,Slab 分 配 怖 的 初始 化 已 经 基本 完毕 ,在 Linux 系统 中 ,所 有 通用 Cache 描述 符 初 始 
化 完毕 。 此 时 我 们 可 以 使 用 Slab 分 配器 提供 的 kmalloc 函数 和 kfree 函数 ,进行 物理 内 存 空间 
的 申请 与 释放 . 
A¥# kmem _ cache _ init 函数 源 代码 片段 8 */ 
/¥ 4) Replace the bootstrap head arravs * / 
| 


struct array _ cache # Ptri 
ptr = krnalloc(sizeof(struct arraycache _init)，GFP KERNEL):; 


local _ irg _ disable( ); 
BUG ON(cpu_cache get(&cache cache) != &initarray _ cache. cache); 
memepy(ptr, cpu_ cache_ get(&cache_ cache), 
sizeof(struct arraycache _init) ); 

A 

¥ Do not assurne that spinlocks can be initialized via memcpy: 

*/ 

spin_ lock _ init( &ptr- > lock); 


cache _ cache. array| smp _ processor _ id()|] = ptr; 
local _irg_ enable( ) ; 


ptr = kmalloc(sizeof(struct arraycache _ init)}, GFP_ KERNEL):; 


local _irg_ disable( ) ; 
BUG ON(cpu_ cache get(malloe sizes| INDEX AC|.cs_ cachep) 
1= &initarray _ generic. cache) ; 


memcpy(ptr, cpu_ cache_ get(malloe sizes| INDEX AC].cs_ cachep). 
sizeof(struct arraycache _ init) ); 
A 
* Do not assume that spinlocks can be initialized via memcpy: 
¥ A 
spin lock init(&ptr- > lock); 


malloc sizes[| INDEX AC].cs_ cachep- >array| smp _ processor _ id()] = 
ptr; 
local _ irg _ enable( ); 
| 
这 是 kmem _ cache _ init 函数 中 男 一 段 较 难 理解 的 代码 。 其 详细 说 明 如 下 
@ 首先 这 段 程序 使 用 kmalloc 函数 ,在 通用 Cache 描述 符 中 ,申请 一 段 与 arraycache _ init 
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结构 大 小 相同 的 内 存 空间 。 

9 将 cache _ cache 一 之 array 中 的 数据 , 即 initarray _ cache.cache 中 的 数据 复制 到 ptr 中 。 

9 使 cache _ cache 一 >array 指向 ptr 指针 ,之 后 全 局 变量 initarray _ cache.cache 不 会 再 被 
使 用 。 当 程序 员 使 用 kmem _ cache _ create 函数 创建 Cache 描述 符 时 ,将 使 用 这 个 ptr 
指针 。 至 此 全 局 变量 initarray _ cache 已 经 完成 了 Boot Strap 的 任务 。 

e 最 后 ,这 段 程序 使 用 kmalloc 函数 ,重新 分 配 一 段 与 arraycache _ init 结构 大 小 相同 的 内 
存 空间 ,然后 将 存放 在 initarray _ generic.cache 中 的 数据 复制 到 ptr 中 。 最 后 将 存放 
“array 结构 结构 所 需要 的 物理 空间 "的 通用 Cache 描述 符 cs_ cachep 一 之 array 参数 赋 但 
为 ptr, 至 此 全 局 变量 initarray ”generic 已 经 完成 了 Boot Strap 的 任务 ,将 不 再 被 使 用 。 


/¥ kmem _ cache _ init 国 数 源 代码 片段 9 * / 
A“x# 5) Replace the bootstrap kmem list3's */ 
| 


int nid; 


/7 关 Replace the static kmem _ list3 structures for the boot cpu */ 
init _ list(&cache _ cache, Rinitkmem list3[| CACHE CACHE], node); 


for_ each _ online_ node(nid) | 
init _ list(malloe _ sizes[| INDEX AC|].cs_ cachep, 
&initkmem _jlist3| SIZE AC + nid|, nid); 


if (INDEX_ AC != INDEX 13) | 
init _ list(malloc _sizes[INDEX _13].cs cachep, 
&initkmem _ list3| SIZE _ 1L3 + nid], nid); 
| 
| 
| 


这 段 程序 与 源 代码 片段 8 的 执行 原理 类 似 ,其 主要 作用 是 结束 kmem _list3 数组 的 Boot 
Strap 使 命 。 读 者 可 以 自行 阅读 这 段 代码 作为 练习 


/# kmem _ cache_init 函数 源 代码 片段 10 */ 
/¥ 6) resize the head arrays to their final sizes * / 
| 
struct kmem _ cache * cachep; 
mutex_ lock(&cache _ chain mutex): 
list _ for_each_ entry(cachep, &cache_ a next) 
if (enable_ cpucache( cachep)) 
BUG( ); 
mutex _ unlock( &cache_ chain_ mutex); 


这 上段 函数 使 用 Slab 分 配器 中 提供 的 标准 内 存 申请 函数 ,kmalloc _ node 函数 ,替换 所 有 
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Slab 分 配器 初始 化 时 ,分 配 的 Cache 描述 符 的 array 参数 和 kmem _ list3 参数 ,并 调整 array 参 
数 和 kmem list3 参数 使 用 的 实际 物理 空间 。 这 段 销 数 的 实现 要 点 在 于 enable _ cpucache 辑 
数 。enable cpucache 函数 调用 alloc arraycache 和 alloc kmemlist 国 数 ,分 配 Cache 描述 符 中 
的 array 参数 和 kmem _list3 参数 使 用 的 空间 。alloc _ arraycache 和 alloc ”kmemlist 函数 会 调 
用 kmalloc _ node 函数 申请 内 存 空间 . 


A/¥# kmem cache _ init 函数 源 代 码 片 段 11 */ 
A Annotate slab for lockdep 一 一 annotate the malloc caches * / 
init _ lock _ keys(); 


A#* Donel */ 
g_ cpucache_ up = FULL: 


A 壬 
* Register a cpu startup notifier callback that initializes 
* cpu_ cache_ get for all new cpus 
¥/ 

register _ cpu _ notifier( &cpucache _ notifier); 


玉蓉 
< The reap timers are started later，with a module init call: That part 
# of the kernel is nor yet operational. 
站 
| 


最 后 这 段 程 序 将 枚 举 变 量 g_cpucache_ up 设置 为 FULL。 至 此 Slab 分 配器 的 初始 化 全 
部 完成 ,所 有 通用 Cache 已 经 被 初始 化 完毕 。 此 后 .Linux 系统 可 以 使 用 Slab 分 配器 提供 的 图 
数 ,进行 内存 的 分 配 与 释放 。 

2. 专用 Cache 描述 符 的 创建 

由 上 文 可 知 ,kmem cache _init 函数 创建 了 所 有 通用 Cache, 并 将 这 些 Cache 描述 符 加 入 
到 全 局 链表 malloc _sizes 和 cache _chain 中 。 之 后 ,Linux 系统 可 以 使 用 一 些 通用 内 存 申 请 与 
释放 函数 ,获取 与 释放 在 通用 Cache 中 的 数据 对 象 。 

但 是 有 时 Linux 系统 为 了 提高 对 一 些 关键 数据 结构 的 访问 速度 ,采用 专用 Cache 保存 这 
此 数据 结构 。 专 用 Cache 符 也 将 加 入 到 全 局 链表 cache _ chain 中 。Linux 系统 的 专用 Cache 

(1) 与 文件 系统 相关 的 专用 Cache, 这 些 Cache 用 来 保存 dentry ,names、inode、nfs 和 jf{fs2 _ 
inode 等 结构 . 

(2) 与 进程 调度 相关 的 专用 Cache, 这 些 Cache 用 来 保存 task _struct rpc _ tasks 等 结构 。 

(3) 与 内 存 管理 相关 的 专用 Cache, 这些 Cache 用 来 保存 vm _ area、mm _ struct 等 结构 。 
实际 上 ,cache _ cache 也 是 专用 Cache 的 一 种 ,只 是 这 个 Cache 的 描述 符 需 要 手工 创建 ,而 不 能 
使 用 kmem _ cache create 国 数 。 

(4) 与 网 络 协议 栈 相 关 的 专用 Cache, 这 些 Cache 用 来 保存 skbuff _ head skbuff _ fclone 等 
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结构 。 

(5) 其 他 所 有 为 程序 优化 创建 的 自 定义 专用 Cache 描述 符 .。 

在 Linux 系统 中 ,有 几 百 种 专用 Cache, 其 定义 各 不 相同 。 目前 也 并 没有 一 个 合理 的 规范 
对 此 进行 命名 ,这 种 做 法 非常 容易 造成 专用 Cache 描述 符 的 名 字 污 染 。 也 许 以 后 Linux 系统 
会 出 现 针对 专用 Cache 描述 符 的 命名 规则 ,只 是 希望 这 种 命名 规范 不 要 过 于 复 灯 ,也 不 要 有 太 
多 层次 。 在 Linux 系统 中 ,通用 描述 符 和 专用 描述 符 都 是 用 kmem _ cache _ create 函数 创建 
的 。 

下 文 将 以 专用 Cache,task _ struct _ cachep 的 创建 为 例 , 说 明 kmem _ caclie _ create 国 数 的 
实现 过 程 。task struct cachep 在 fork _init 函数 中 创建 ， 

fork init 函数 的 源 代码 在 ./kernel/fork.c 文件 中 。 在 Linux 系统 初始 化 时 ,该 函数 被 
start ”kerne| 函数 调用 。Linux 系统 使 用 alloc _task _ struct 和 free _ task _ struct 函数 通过 专 
用 Cache,task struct cachep ,创建 和 释放 task _ struct 结构 


# define alloc task _ struct() kmem cache alloc(task _ struct_ cachep, GFP_ KERNEL,) 
并 define free task struct(tsk) kmem cache_ free(task _ struct_ cachep, (tsk)) 
static kmem cache +t *task struct cachep; 


void _ init fork _ init(unsigned long mempages) 
| 
/# create a slab on which task _ structs can be allocated * / 
task _ struct _ cachep = 
kmem cache create( task _ struct , sizeof(struct task _ struct), 
ARCH MIN TASKALIGN, SLAB_ PANIC, NULL, NULL):; 
| 
task struct _ cachep 是 静态 全 局 变量 ,其 作用 范围 在 fork.c 次 件 中 。task _ struct _cachep 
是 一 个 kmem cache tt 结构 类 型 的 指针 ,指向 kmem _ cache _create 函数 创建 的 专用 Cache 拍 
述 符 。kmem cache _ create 函数 的 源 代码 在 ./mm/slab.c 文件 中 。kmem _ cache _ create 的 
数 一 共 有 6 个 输入 参数 ,该 函数 执行 成 功 后 ,返回 已 分 配 的 专用 Cache 描述 符 指针 


struct kmem _ cache * 

kmem _ cache_ creare (const char * name, size _ t size, size _t ahgn， 
void (ctor) (void * , struct kmem _ cache * , unsigned long), 
void (* dtor)(void , struct kmem _ cache * , unsigned long)) 

| 


kmem _ cache _create 国 数 的 参数 如 下 : 
@ name 参数 。 这 个 参数 存放 在 /proc/slabinfo 文件 中 相应 Cache 描述 符 的 名 字 。 对 于 专 
用 Cache 描述 符 task _ struct -cachep, 该 值 为 "task _ struct 。 
8 size 参数 。 这 个 参数 存放 在 当前 Cache 描述 符 中 ,数据 对 象 的 大 小 。 对 于 专用 Cache 拍 
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述 符 task _ struct, 这 个 值 为 sizeof(struct sask _ struct)。 

9 align 参数 - 这 个 参数 描述 当前 Cache 描述 符 中 数据 对 象 的 对 界 单 位 ， 对 于 专用 Cache 
摘 述 符 task _ struct, 这 个 值 为 ARCH_MIN_TASKALIGN. 即 Ll1_ CACHE BYTES. 

@ flags 参数 表示 创建 当前 Cache 描述 符 时 的 约束 条 件 。 对 于 专用 Cache 描述 符 task _ 
struct _ cachep, 这 个 值 为 SLAB_ PANIC. 即 如 果 kmem cache _ create 函数 创建 Cache 
摘 述 符 失 败 ,将 引发 panic 事件 ， 

@ ctor 和 dtor 参数 。ctor 参数 在 Slab 分 配器 创建 数据 对 象 时 调用 ,而 dtor 参数 在 Slab 系 
统 释放 数据 对 象 时 调用 。 


size_t left_over, slab_ size, ralign; 
struct kmem _ cache * cachep = NULL, * pe; 


六 站 
# Sanity checks. .. these are all serious usage bugs 
A/ 
if (lname || in_ interrupt() || (size < BYTES_ PER_ WORD) || 
(size > (1 << MAX OBJ_ORDER) * PAGE SIZE) || (dtor && 1 ctor)) | 
printk(KERN ERR %s: Early error in slab Ws\n’, FUNCTION ,， 
name); 


BUG( ); 


/< disable debug 让 necessary ¥ / 
f (ralign > BYTES_ PER WORD) 

flags 有 = ~(SLAB_ RED _ ZONE | SLAB_STORE _ USER):; 
并 

* 4) Store it. 

ud 


这 段 程序 首先 对 kmem _ cache _ create 函数 进行 参数 检查 。 随 后 对 cache _ chain 链表 进行 
扫描 ,检查 在 cache _ chain 链表 中 .是否 已 经 有 此 类 专用 Cache 描述 符 。 在 cache ”chain 链表 
中 ,不 允许 Cache 描述 符 同 名 


align = ralign; 


VC 
cachep = kmem _ cache zalloc( &cache cache, GFP KERNEL): 
i{ (1 cachep) 
gorp oopsi 
这 段 图 数 使 用 kmem cache _ zalloc 函数 ,从 cache cache 描述 符 中 ,获得 专用 Cache 描述 
付 task _ struct _ cachep 所 使 用 的 内 存 对 象 . 由 上 文 得 知 ,cache _ cache 描述 符 存 放 所 有 Cache 
描述 符 使 用 的 内 存 空间 
kmem _ cache _ zalloc 图 数 将 依次 调用 cache _alloc 函数 、 _ cache alloc 函数 和 cpu 
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cache _ get 畏 数 。 在 这 几 个 国 数 中 ,cpu cache get 国 数 最 为 重要 ， 

cpu cache _ get 函数 首先 从 cache cache 的 array _cache 参数 中 ,获得 所 需要 的 Cache 描 
述 符 ;如 果 cache _cache- >array _ cache 参数 中 设 有 数据 对 象 , 则 使 用 cache _ alloc _ refil 函数 
将 array _ cache 重新 装填 ,之 后 获得 相应 的 Cache 描述 符 使 用 的 内 存 空 间 . 


A 
* Determine i{ the slab management is on or off slab. 
#¥* (bootstrapping cannot cope with offslab caches so don t do 
* it too early con. ) 
A 
i{f ((size >= (PAGE SIZE >> 3)) && 1slab early_ init) 
A 
# Size is large, assume best to Place the slab management ob 
* off-slab (should allow better packing of obis). 
A/ 
flags | = CFLGS_ OFF _ SLAB; 


这 段 代码 决定 是 否 为 flags 参数 加 上 CFLGS _ OFF _ SLAB 标志 ,该 标识 决定 当前 Cache 


当 Cache 描述 符 中 的 数据 对 象 所 占 空 间 大 于 178 个 物理 页 面 ,而 且 slab_ early _ init 参数 
不 为 ] 时 ,当前 Cache 的 flag 参数 将 被 加 上 CFLGS_ OFF _ SLAB 标志 ,此 时 当前 Cache 的 
Slab 描述 将 不 与 数据 对 象 共 享 内 存 空 间 . 这 样 做 的 主要 目的 是 为 了 提高 Slab 描述 符 的 空间 
利用 率 ,以 减少 数据 碎片 。 

当 Cache 中 的 数据 对 象 大 于 Slab 描述 符 所 占 的 空间 时 ,如果 Slab 摘 述 符 仍 与 数据 对 象 共 
享 内 存 空间 ,会 造成 一 些 空间 浪费 ,所 浪费 的 空间 是 Slab 描述 符 的 大 小 减 当前 Cache 中 数据 
对 象 的 大 小 。 当 前 Cache 中 的 数据 对 象 越 大 ,Slab 分 配器 所 浪费 的 空间 就 越 大 ,1/8 个 物理 页 
面 就 是 为 此 设置 的 一 个 贱 值 。 

slab _ early _ init 参数 为 kmem cache _ init 函数 而 设 。 在 kmem _ cache _ init 函数 中 ,全 
局 指针 cache cache 还 没有 被 初始 化 好 ,此 时 调用 kmem cache _ create 函数 ,只 能 使 Slab 摘 
述 符 与 数据 对 象 共享 物理 内 存 空 间 。 

size = ALIGN(size, align); 
left_ over = calculate_ slab_ order( cachep, size, align, flags); 

calculate _ slab _ order 函数 的 主要 作用 是 ,计算 当前 Cache 的 Slab 中 ,可 以 存放 多 少 个 数 
据 对 象 ,在 当前 的 Cache 的 Slab 中 还 将 剩余 多 少 空间 ,并 将 这 些 参数 分 别 存 人 到 Cache 描述 符 
的 num 参数 和 left _ over 参数 中 .Slab 使 用 Buddy System 中 物理 地 址 页 面 连续 的 页 面 空 间 ， 
calculate slab _order 函数 的 执行 流程 如 下 所 示 ， 

(1) 使 gfp _order =0. 

(2) 使 用 cache _ estimate 函数 ,判断 在 Buddy System 的 Zone free_areal gfp _order| 中 ， 
是 否 有 合适 的 空间 分 配给 当前 Cache 描述 符 。 如 果 有 ,获得 临时 的 num 和 remainder 参数 ,并 
继续 执行 :否则 gfp_ order++ . 转 至 第 1 步 ， 

(3) 检查 当前 Cache 的 Slab 描述 符 是 否 与 数据 对 象 共 享 内 存 空间 ,如 果 不 是 , 则 继续 , 否 
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则 进一步 判断 ,获得 的 临时 num 参数 是 否 大 于 slab 中 容纳 数据 对 象 的 冰 值 ， 如 果 num 参数 大 
于 此 立 值 , 则 退出 calculate _ slab _order 函数 ,并 丢弃 在 第 2 步 中 获得 临时 的 num 和 reminder 
参数 。 当然 在 gfp _ order 为 0 时 ,不 可 能 出 现 num 参数 大 于 此 阅 值 的 情况 ,具体 原因 , 留 给 读 
者 分 析 

(4) 将 第 2 步 获 得 的 num 和 reminder 参数 , 存 人 Cache 描述 符 的 num 参数 和 left over 
变量 中 。 并 将 gfp_ order 变量 存 人 Cache 描述 符 的 gfp _ order 参数 中 。 

(5) 检查 flags 参数 是 否 有 SLAB _ RECLAIM ACCOUNT,SLAB _RECLAIM _ AC- 
COUNT 标识 。 这 些 标 志 用 来 创建 与 文件 系统 有 关 的 Cache 描述 符 , 如 inode,romfs _ inode， 
nfs _ inode 等 。 这 些 Cache 描述 符 最 好 只 使 用 一 个 物理 页 面 。 当 SLAB _RECLAIM _AC- 
COUNT 标志 有 效 时 ,将 退出 calculate _slab _order 函数 。 

(6) 判断 当前 Buddy System 中 ,物理 连续 的 页 面 是 否 大 于 或 者 等 于 slab _break gfp_ order。 
如 果 是 , 则 直接 退出 calculate slab order 函数 ,因为 Linux 的 Slab 分 配器 不 鼓励 使 用 比较 大 
的 物理 地 址 连续 的 页 面 。 在 Linux PowerPC 中 ,slab break gfp _order 的 值 为 1 ,表示 如 果 当 
前 Cache 描述 符 使 用 的 物理 连续 的 页 面 大 于 21 个 , 则 退出 caleulate _ slab _ order 图 数 ,并 且 不 
做 碎片 检查 ， 

(7) 判断 使 用 当前 物理 连续 的 页 面 空间 ,其 整个 空间 的 浪费 率 是 否 小 于 等 于 25%。 如 果 
结果 为 真 , 则 退出 caleulate _ slab _ order 国 数 ,否则 gfp _ order++ , 转 至 第 1 步 进一步 进行 检 
查 - 

(8) 将 left _ over 的 值 返回 。 


cachep- >colour_off = cache line_ size(); 

7# Offset must be a multiple of the alignment. */ 

if (cachep->colour off < align) 
cachep- > colour_ off = align; 

cachep- >colour = left over / cachep: > colour _ off; 

cachep- >slab size = slab _ size: 

cachep- > {flags = flags:; 

cachep- > gfpflags = 0; 

if (flags & SLAB_ CACHE _ DMA) 
cachep->gfpflags |= GFP_ DMA:; 

cachep- > buffer size = size; 

cachep- > reciprocal _ buffer _ size = reciprocal _ value( size); 

这 上段 程序 的 执行 流程 如 下 : 

(1) 首先 将 当前 Cache 描述 符 的 colour _off 参数 置 为 Ll _ CACHE _BYTES, 如果 此 值 小 
于 kmem cache _create 函数 要 求 的 对 界 大 小 align, 则 将 colour _ off 参数 置 为 align。 

(2) colour _ off 参数 用 来 计算 ,在 当前 Cache 描述 符 中 ,每 个 Slab 之 回 的 间隔 。 在 Cache 
描述 符 中 ,有 许多 个 Slab, 这 些 Slab 中 包含 若干 个 数据 对 象 。colour _ off 参数 用 来 确定 在 Slab 
中 ,每 一 个 数据 对 象 的 偏 移 . 

(3) 计算 当前 Cache 描述 符 的 colour 参数 ,这 个 参数 为 left _ over( 当前 Slab 的 剩余 空间 ) 
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除 以 colour _ off， left_over 和 colour _ off 参数 用 来 提高 Slab 分 配器 使 用 硬件 Cache 的 效率 。 
在 现代 处 理 器 中 ,Cache 以 一 个 个 Cache 行 组 织 起 来 ,其 中 每 一 个 Cache 行 可 以 映射 到 几 个 指 
定 的 内 存 中 。 在 Slab 分 配器 中 ,设置 colour _off 和 colour 参数 的 主要 目的 是 避免 Slab 中 , 相 
郭 的 数据 对 象 使 用 同一 个 Cache 行 , 以 避免 Cache 颠 徐 。 下 文 以 一 个 实例 说 明 Slab 分 配器 如 
何 使 用 colour _off 和 colour 参数 以 避免 Cache 站 繁 ， 

假定 left over 为 140B,align 为 32B。 此 时 colour 参数 为 140/32 = 4( 需 要 取 整 )。 为 简便 
起 见 , 我 们 假定 在 当前 Slab 中 ,第 一 个 数据 对 象 的 地 址 偏 移 为 0, 则 第 二 个 数据 对 象 的 地 址 侦 
移 为 32, 第 三 个 为 64, 第 四 个 为 96, 第 五 个 为 128, 第 六 个 回归 0。 采 用 这 种 办 法 将 有 效 避 免 相 
邻 的 数据 对 象 占用 同一 个 物理 Cache 行 。 

(4) 初始 化 cachep 的 flags, gfpflags 和 buffer _ size 参数 ， 


if (flags 久 CFLGS_ OFF SLAB) | 
cachep- >slabp cache = kmem find general_ cachep(slab_ size, 0u); 
BUG ON(! cachep-> slabp _ cache): 

| 

cachep- > ctor = ctor; 

cachep- > dtor = dtor; 

cachep- >name = name: 


如 果 Slab 描述 符 不 与 数据 对 象 共享 内 存 空 间 , 则 使 用 kmem _ find _ general _ cachep 图 
数 ,为 Slab 描述 符 找到 合适 的 Cache 描述 符 队列 ,随后 将 ctor, dtor 和 name 参数 初始 化 。 


if (setup _ cpu cache( cachep)) | 
kmem cache destroy(cachep); 
cachep = NULL; 
gcto Ooops; 

| 


/sx cache setup completed, link it into the list * / 
list_ add{ &ecachep- > next, &cache _ chain); 


这 段 函数 使 用 setup cpu _ cache 图 数 将 Cache 描述 符 的 其 他 参数 初始 化 ,包括 array、 
nodelists.batchcount 和 limit 参数 ,之 后 将 Cache 描述 符 加 人 到 全 局 链表 cache _ chain 中 。 至 
此 ,Cache 描述 符 的 创建 完成 。 在 Linux 系统 中 ,Cache 描述 符 一 旦 创建 ,一 般 不 会 被 释放 。 

3. Cache 描述 符 的 释放 

在 Linux 系统 中 ,通用 Cache 描述 符 一 旦 被 创建 后 ,将 在 整个 系统 的 运行 期 间 保持 有 效 ; 
绝 大 多 数 专用 Cache 描述 符 在 创建 后 也 不 会 被 释放 ， 但 是 还 有 个 别 专 有 Cache 描述 符 ,如 在 
有 些 设备 驱动 程序 中 创建 的 Cache 描述 符 ,因为 出 现 种 种 错误 ,而 需要 释放 创建 的 Cache 描 
述 符 。 

如 果 在 动态 加 载 的 设备 驱动 程序 中 使 用 了 Cache 描述 符 , 那 么 在 设备 驱动 程序 和 凶 载 轩 ,市 
要 将 所 分 配 的 Cache 描述 符 释 放 。 本 书 不 建议 一 般 用 户 在 编写 自己 的 设备 驱动 程序 时 使 用 这 
种 方式 ,提高 自 定义 数据 结构 的 分 配 效率 。 因 为 绝 大 多 数 驱 动 程序 没有 复杂 到 必须 用 创建 专 
用 Cache 描述 符 的 方式 进行 优化 ,在 多 数 情况 下 ,程序 员 可 以 找到 许多 更 加 简练 的 方式 优化 设 
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备 驱动 程序 。Slab 分 配器 使 用 kmem _ cache _ destroy 函数 释放 Cache 描述 符 , 该 函数 的 源 代 
但 如 下 : 


void jamem _ cache _ destroy(struct kmem _ cache * cachep) 
| 

BUG _ ON(! cachep || in interrupt( )); 

7 <# Find the cache im the chain of caches. */ 

mutex _ lock(&&cache _ chain mutex): 


list_ del( &cachep- > next): 

计 (__ cache_ shrink(cachep)) | 
slab_ error( cachep, “Can't free all objects’); 
list _ add( &cachep- > next, @&@cache chain); 
mutex_ unlock( 及 cache chain mutex): 
return:; 


if (unlikely(cachep- >flags & SLAB_ DESTROY BY RCU)) 
synchronize _ rceu( ); 


_ kmem cache_ destroy( cachep); 
mutex_ unlock( 人 cache chain mutex): 
| 


kemem _ cache _ destrop 函数 首先 将 Cache 描述 符 从 cache chain 队列 中 摘除 ,之 后 使 用 
_ cache _ shrink 图 效 释放 Cache 描述 符 占用 的 空间 。 在 cahce shrink 函数 中 ,使 用 kfree 函 
数 将 array 参数 中 的 空间 释放 ,同时 释放 Cache 描述 符 的 nodelists 参数 占用 的 空间 。 最 后 该 函 
数 将 存放 在 cache _ cache 中 的 Cache 描述 符 使 用 的 空间 释放 。 


7.3.3 Slab 的 管理 


Linux 系统 将 Slab 连接 成 一 个 个 链表 ,由 Cache 统一 进行 管理 , 由 7.3.1 万 可 知 , 每 一 个 
Cache 摘 述 符 都 有 一 个 nodelists 参数 。 在 nodelists 中 ,包含 三 个 指向 不 同 Slab 链表 的 指针 ,分 
别 是 slabs_ full\slabs partial 与 slabs free, 这 三 个 指针 将 在 下 文 详细 介绍 . 

Linux 系统 还 设置 了 CFLGS_OFF _ SLAB 标识 .确定 当前 Slab 描述 符 的 存放 方法 。 如 
末 CFLGS_OFF_SLAB 标识 为 0, 表示 Slab 描述 符 与 Slab 中 的 数据 对 象 共享 内 存 空间 ,否则 
不 共 译 。 其 存放 关系 如 图 7-11 所 示 . 

如 上 图 所 示 , 采 用 这 种 方式 时 ,Slab 摘 述 符 与 其 管理 的 object 共享 在 Buddy System 中 的 
空间 ,可 能 是 一 个 或 者 多 个 物理 地 址 连续 的 页 面 。 如 果 CFLGS OFF SLAB 标识 为 1 ,表示 
Slab 摘 述 符 与 数据 对 象 不 共享 内 存 空 间 。 其 存放 关系 如 图 7-12 所 示 。 


1. Slab 的 创建 
由 7.3.2 节 可 知 ,Linux 系统 使 用 kmem cache create 函数 创建 Cache 摘 述 符 时 ,将 调用 
kmem _cache zalloc—>_ cache alloc-> eache alloc—> cache _ alloc _ refill 一 >cache 
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grow 图 数 为 当前 Cache 创建 新 的 Slab。kmalloc 或 者 kmalloc node 图 数 申 请 内 存 空 间 时 ,有 
时 也 会 调用 ”kmalloec-> do kmalloc 一 > __ cache alloc—> cache alloc —>cache al 
loc _ref 江 一 >cache _ grow 图 数 为 当前 Cache 创建 新 的 Slab. 


Slab 所 管理 的 Object 所 占用 的 空间 





图 7-11 Slab 描述 符 与 Object 共享 物理 地 址 空间 


Slab 所 管理 的 Object 所 占用 的 空间 


ee ee | ee 


图 7-12 Slab 描述 符 不 与 Object 共享 物理 地 址 空间 


这 些 新 生成 的 Slab 将 加 入 到 Cache 描述 符 的 slabs free 链表 指针 中 。cache grow 图 数 


static mt cache _ grow(struct kmem _ cache * cachep, gfp _ 1 flags, int nodeid) 
| 


如 果 cache _ grow 函数 创建 Slab 成 功 则 返回 1 ,如果 和 失败 则 返回 0。cache grow 函数 的 
主要 作用 是 将 初始 化 完毕 的 Slab 加 入 到 当前 Cache 的 slabs ”free 指针 中 。cache grow 国 数 
一 共有 三 个 输入 参数 。 

(1) cachep 参数 表示 为 哪个 Cache 申请 Slab。 

(2) flags 参数 表示 采用 何 种 方式 创建 Slab 

(3) nodeid 参数 表示 使 用 哪个 内 存 节 点 保存 Slab 的 物理 页 面 . 


让 flags 有 GFP_ NO GROW) 
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return 0; 


ctor _ flags = SLAB _ CIOR CONSTRUCTOR; 

local _flags = (flags & GFP _ LEVEL_ MASK):; 

if (! (local_ flags & __ GFP _ WAIT)) 
ctor _ flags |= SLAB_ CTOR ATOMIC:; 


offset * = cachep- > eolour _ off; 


if (local _ flags & __ GFP _ WAIT) 
local _ irg _ enable( ); 


kmem _ flagcheck( cachep, flags); 


这 段 程序 对 cache _ grow 函数 的 入 口 参 数 进行 完整 性 检查 ,并 根据 Cache 中 的 colour _ off 
参数 确定 每 一 个 Slab 之 间 的 间隔 。 


其 
# Get mem for the objs. Attempt to allocate a physical page from 
* “nodeid . 
半 / 
if (lobip) 
obip = kmem _ getpages(cachep, flags, nodeid); 
if (Tobijp) 
goto failed; 
这 段 程序 调用 kmem getpages 函数 ,为 Slab 中 的 数据 对 象 在 Buddy System 中 分 配 物理 
地 址 空间 。Slab 分 配器 基于 Buddy System。 在 Linux 系统 中 ,Slab 分 配器 只 有 在 申请 新 的 
Slab 时 才 与 Buddy System 进行 交互 ,在 绝 大 多 数 情 况 下 ,kmalloc 函数 并 不 与 Buddy System 进 
行 交 互 。kmem _ getpages 函数 的 输入 参数 与 cache _ grow 函数 的 输入 参数 相同 ,返回 人 为 所 
分 配 物理 页 面 的 虚拟 地 址 ,该 函数 的 执行 流程 如 下 : 
@ 首先 使 用 alloc -pages _ node 函数 在 Buddy System 中 ,分 配合 适 的 物理 页 面 ， 
e@ 为 分 配 的 物理 页 面 赋予 PG _ slab 标识 ,表示 该 物理 页 面 已 被 Slab 分 配合 使 用 。 
@ 最 后 使 用 page _ address 国 数 获得 当前 物理 页 面 的 虚拟 地 址 。 


/3# Get slab management. ¥*/ 
slabp = alloe_ slabmgmt(cachep, objp, offset, 
local _ flags & ~GFP _ THISNODE, nodeid); 
i{ (1slabp) 
goto oppsl ; 
调用 alloc _slabmgmt 函数 获得 Slab 描述 符 的 空间 。 由 上 文 所 示 , Slab 描述 符 与 数据 对 象 
可 以 共享 内 存 空间 ,也 可 以 不 共享 内 存 空间 。 如 果 Slab 描述 符 不 与 数据 对 象 共享 内 存 空间 ， 
alloc ”slabmgmt 函数 将 调用 kmem _cache _alloc _node 图 数 ,从 Buddy System 中 为 当前 Cache 
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的 Slab 描述 符 分 配 物 理 空间 ;否则 Slab 描述 符 将 与 数据 对 象 共享 物理 空间 。 


slabp- > nodeid = nodeid; 
slab_ map_ pages(cachep, slabp, objp); 


cache_ init_ objs(cachep, slabp, ctor _ flags); 


if (local flags @_ GFP_ WAIT) 
local irq _ disable( ) ; 

check _ irg _ off( ); 

spin_ lock( &13- > list _ lock); 


A¥ Make slab active. */ 
list_ add _ tail(&slabp- > list, &@(13->slabs_ free)); 
STATS_ INC_ GROWN (cachep); 
I3->free_objects += cachep- > num:; 
spin _ unlock( &13- >list_ lock): 
return ] ; 
oppsl ， 
kmem freepages(cachep，objb) ; 
failed: 
if (local _ flags 咏 __ GFP_ WAIT) 
local _ irg_ disable( ) ; 
return 0; 
上 /x End cache grow */ 


这 段 图 数 的 执行 流程 如 下 : 

se 调用 slab _map _ pages 国 数 ,将 存放 Slab 数据 对 象 的 物理 页 面 的 lru.next 和 1lru.prev 指 
回 该 数据 对 象 所 属 的 Cache 描述 符 和 Slab 描述 符 。 之 后 ,Slab 分 配器 可 以 根据 数据 对 
象 的 虚拟 地 址 ,通过 virt to page 函数 以 及 page _ get _cache 和 page _ get _ slab 函数 ， 
获得 这 个 虚拟 地 址 所 对 应 的 Cache 描述 符 和 Slab 描述 符 。kfree 函数 将 使 用 lru. next 
和 lru. prev 

@ 调用 cache _ init _obis 函数 将 Slab 中 的 数据 对 象 进行 初始 化 ,并 进行 图 数 返 回 ， 如 采 
cache ”grow 图 数 的 返回 值 为 1, 表示 该 图 数 成 功 地 从 Buddy System 中 获得 了 新 的 
Slab; 如 果 该 图 数 的 返回 住 为 0, 表示 该 图 数 执行 失败 。 

在 这 里 ,需要 简单 介绍 一 下 cache _ init _obijs 函数 。 该 函数 的 主要 源 代码 如 下 所 示 : 

static void cache_ init_ objs(struct kmem _ cache * cachep， 


struct slab * slabp, unsigned long ctor _ flags) 
| 


int 13 
for (i = 0; i < cachep- >num:; i++ ) | 
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void #obip = index_ to_ obj(cachep, slabp, i); 
if (cachep- > ctor) 
cachep- > ctor(objp, cachep, ctor _ flags); 

slab_ bufctl(slabp)[i] = i + 1; 

| 

slab _ bufctl(slabp)li - 1] = BUFCTL _ END; 

slabp->free = 0; 

| 


cache _init _ obijs 图 数 的 主要 作用 是 初始 化 kmem _ bufctl t+ 数组。 

在 Slab 中 ,kmem _ bufct] t+ 数组 用 作 空 闲 数 据 对 象 的 索引 。kmem _bufetl _ +t 数组 的 存 
放 位 置 在 Slab 描述 符 之 后 ,如 图 7-11,7-12 所 示 。 这 段 程序 使 用 内 联 图 数 slab _ bufctl 访问 
kmem _ bufctl + 数组 ,slab bufctl 函数 的 定义 为 (kmem bufctl t < ) (slabp + 1)。 

这 上段 函数 根据 在 当前 Slab 中 可 以 存放 的 数据 对 象 个 数 确 定 kmem _ bufctl _t 数 组 的 大 
小 ,并 将 1,2,...，,ceachep->num, 分 别 赋值 到 kmem _ bufctl _ t10 一 cachep- 记 num-1 中 ,然后 
将 BUFCTL END 赋值 到 kmem _bufctl tlcachep->num_. 中 。 其 中 BUFCTL _ END 参数 用 
来 确定 kmem _ bufctl tt 数组 的 结束 状态 。kmem _ bufctl _+ 数组 中 的 每 一 位 与 Slab 中 的 空闲 
数据 对 象 相 对 应 。 

在 这 里 ,认真 的 读者 读者 应 该 注意 到 在 kmem _ bufctl_t 数 组 中 ,并 没有 与 Slab 中 第 一 个 
歼 据 对 象 相 对 应 的 Entry, 即 kmem _bufct tt 数组 并 没有 存放 0 这 个 数值 。 因 为 Linux 系统 
使 用 Slab 描述 符 的 slabp -> free 参数 存放 着 第 一 个 未 使 用 的 数据 对 象 。 在 Slab 初始 化 时 ， 
Slab 摘 述 符 的 free 参数 被 置 为 0,Slab 的 第 一 个 空闲 数据 对 象 就 是 保存 在 这 里 。 

Linux 系统 使 用 Slab 分 配器 进行 内 存 申请 时 ,Siab 中 的 数据 对 象 将 会 不 断 地 袖 分 配 ,slabp 
-人 free 参数 将 被 依次 赋值 为 kmem bufctl _ tL0 一 cachep->num-l | 

2. Slab 的 释放 

在 Linux 系统 中 ,Slab 轻易 不 会 被 释放 .只 有 在 存放 Slab 的 Cache 空间 被 释放 或 者 当 操 
作 系 统 由 于 物理 内 存 空 间 紧 张 而 对 Cache 空间 进行 整理 时 , 才 有 可 能 释放 Slab 占用 的 物理 空 
间 。 这 种 做 法 保证 了 Slab 在 Linux 系统 中 长 期 有 效 ,从 而 保证 了 Linux 系统 进行 内 存 申请 的 
效率 。 在 Linux 系统 中 使 用 slab _ destroy 肾 数 释放 Slab 所 占用 的 物理 空间 - 这 个 国 数 的 源 代 
码 在 . /mm/slab.c 文件 中 。 该 函数 源 代码 详解 如 下 : 

static void slab destroy(struct kmem __ cache * cachep, struct slab * slabp) 
| 
void #addr = slabp->s_ mem — slabp- > colouroff; 


slab_ destroy __ objs(cachep, slabp); 
if (unlikely(cachep->flags & SLAB DESTROY BY _ RCU)) | 


struct slab rcy * slab rcu; 


slab recu = (struct slab _ rcu * )slabp; 


了 J30 


slab_ reu- > cachep = cachep; 

slab_ rcu- >addr = addr; 

call_ rcu(&slab_ rcu->head, kmem rcu_ free); 
| else | 

kmem __ {freepages(cachep, addr); 

i (OFF _ SLAB(cachep)) 

kmem _ cache _ free(cachep- > slabp_ cache, slabp); 

| 


9 如 果 被 释放 的 Slab 具有 析 构 函数 , 则 slab _ destroy _ obijs 函数 调用 此 析 构 孙 数 ,将 Slab 
中 存放 的 所 有 数据 对 象 进行 析 构 操作 . 

e@ 使 用 kmem _ freepages 函数 释放 Slab 所 占用 的 内 存 空间 . 

9 如 有 果 当 前 Slab 描述 符 不 与 数据 对 象 共享 内 存 空 间 ,还 需要 使 用 kmem _ cache _ free 函数 
释放 Slab 摘 述 符 所 占用 的 内 存 空 间 。 


7.3.4 数据 对 象 的 管理 


效 据 对 象 与 Slab 的 关系 如 图 7-11 和 7-12 所 示 。 在 Linux 系统 中 ,数据 对 象 分 为 两 类 : 存 
放 在 专用 Cache 中 的 数据 对 象 被 称 为 专用 数据 对 象 , 而 存放 在 通用 Cache 中 的 数据 对 象 被 称 
为 通用 数据 对 象 。 本 节 将 详细 介绍 通用 数据 对 象 的 创建 与 释放 
1. 数据 对 象 的 创建 
Linux 系统 使 用 kmem _ cache _ alloc 函数 创建 专用 数据 对 象 ; 使 用 kmalloc 函数 创建 通用 
数据 对 象 。 通 用 数据 对 象 是 Linux 系统 动态 申请 的 内 存 空 间 , 专 用 数据 对 象 存 放 Linux 系统 
中 篆 用 的 数据 结构 ,如 上 文 提 到 的 task _ struct 结构 - 在 Linux 系统 中 ,通用 数据 对 象 的 创建 
是 专用 数据 对 象 创建 的 一 个 特例 ,通用 数据 对 象 的 创立 也 需要 调用 kmem _ cache _alloc 函数 。 
kmalloc 国 数 用 作 内 存 申请 。 该 函数 的 源 代 码 在 . /include/Ainux/slab _def.h 文件 中 ,其 详解 如 
hs 
static inline void * kmalloc(size_ +t size, gfp _ t flags) 
| 
该 函数 共有 两 个 输入 参数 ,分 别 为 size 和 flags。size 参数 撒 述 kmalloc 函数 所 申请 的 空间 
大 小 ,而 flags 参数 与 7.2.3 节 gfp_ mask 参数 的 定义 相同 。 该 函数 成 功 返 回 后 ,将 得 到 所 申 
请 空间 的 虚拟 地 址 ,否则 返回 值 为 NULL。 


i ( builtin constant p(size)) | 
mti = 0; 
# define CACHE(x) \ 
i (size <= x)} \ 
goto found; \ 
else \\ 
i 十 二 ， 
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#include kmalloc _ sizes.h 
# undef CACHE 
| 
extern void _ you_ cannot_ kmalloec _ that _ much(void); 
_ you_ cannot kmalloe _ that much():; 
| 
found: 
return kmem _ cache_ alloc( (flags 多 GFP_ DMA)? 
malloc sizesli].cs_ dmacachep : 
majloc sizes[i].cs_ cachep, flags); 
| 
这 段 程序 使 用 “builtin _ constant _p 国 数 ,判断 kmalloc 函数 的 输入 参数 size 是 否 和 家 Gee 
编译 器 判定 为 一 个 常数 。 如 果 size 参数 为 一 个 常数 , 则 builtin _ constant _p 国 数 为 True, 和 否 
则 为 False。 程 序 员 使 用 kmalloc(128, flags) 这 样 的 语句 (此 时 size 参数 为 128, 是 一 个 常数 ,而 
不 是 一 个 变量 ), 进 入 kmalloc 函数 时 ， builtin constant _ p(size) 的 返回 值 为 真 。 
_ builtin _ constant _p 是 Gcc 编译 器 使 用 的 函数 ,该 昂 数 帮助 程序 判断 一 个 表达 式 是 省 
在 编译 阶段 就 被 确定 为 常数 。 该 函数 对 一 些 性 能 要 求 较 高 的 程序 有 一 定 帮 助 。 
之 后 这 段 程序 重新 定义 宏 Cache, 然后 在 全 局 数组 malloc sizes 中 ,查找 与 size 参数 对 应 
的 Entry。 这 段 程序 写 得 比较 精炼 ,希望 读者 认真 理解 这 段 代 码 。 
如 果 在 全 局 数组 malloc sizes 中 ,没有 查找 到 与 size 参数 对 应 的 Entry. 则 调用 _ you _ 
cannot kmalloc -that _much 函数 ;如 果 在 kmalloc sizes.h 文件 中 找到 了 合适 的 Entrv, 则 项 
用 kmem _ cache _allcc 函数 申请 内 存 空 间 。 


return kmalloc(size，flags) ; 


如 果 kmalloc 函数 的 输入 参数 size 被 Gcc 编译 器 判定 是 一 个 变量 , 则 调用 ”kmalloc 图 数 
申请 内 存 空间 。kmem cache ”alloc 函数 和 。 kmalloc 函数 的 执行 流程 如 图 7-13 所 示 ， 


do kmalloc 


kmem cache alloc 








cache alloc 


图 7-13 与 数据 对 和 象 创建 有 关 的 函数 


由 上 图 所 示 ,kmem cache alloc 和 kmalloc 函数 最 终 调 用 cache _ alloc 函数 完成 通 
用 或 者 专用 数据 对 象 的 创建 。 cache _ alloc 图 数 如 下 : 
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static inline weld ¥ cache _ alloc(struct krmem _ cache * cachep, gfp _ t flags) 
| 

void * objp; 

struct array _ cache * ac; 


check _ irg _ off( ); 


if (should failslab( cachep, flags)) 
return NULL; 


ac = cpu_ cache get(cachep); 
if (likely(ac- > avail)) | 
STATS_ INC_ ALLOCHIT(cachep); 
ac- > touched = 1; 
objp = ac->entry! —— ac- > avail]; 
| else | 
STATS_ INC_ ALLOCMISS( cachep); 
objp = cache alloc_ refill(cachep, flags); 
| 
return objyp; 


这 段 源 代 但 的 执行 流程 如 下 : 

(1) 调用 cpu __cache _get 获得 当前 Cache 的 array 参数 ,之 后 调用 cpu _ cache _pet 函数 试 
图 从 Cache 的 array 参数 中 获得 数据 对 象 . 

(2) 如 果 在 当前 Cache 描述 符 的 array 中 有 空闲 的 数据 对 象 缓存 , 则 获得 此 数据 对 象 。 否 
则 调用 cache _ alloc _ refill 函数 重新 装填 当前 Cache 的 array 缓存 ,之 后 从 array 中 获得 相应 的 
数据 对 象 。 

cache_alloc _refill 函数 是 。” cache _ alloc 函数 的 主体 。 该 函数 的 返回 值 是 数据 对 象 的 
虚拟 地 址 。 该 函数 的 源 代码 在 . /mm/slab.e 文件 中 ,其 执行 流程 如 下 : 

(1) 进行 基本 的 参数 检查 ,并 获得 当前 Cache 的 array 参数 ， 

(2) 获得 当前 Cache 的 nodelists 参数 ,判断 是 否 在 nodelists 的 共享 array 中 存在 数据 空 
间 。 如 果 有 , 则 将 在 共享 array 中 的 数据 空间 搬移 到 Cache 的 array 参数 中 ,然后 获得 此 数据 空 
间 ,并 转移 到 第 6 步 。 

(3) 根据 batchcount 参数 的 大 小 决定 一 共 需 要 从 当前 Cache 的 nodelists 中 的 Slab 链表 获 
得 多 少 个 数据 对 象 。 首 先 此 函数 将 检查 nodelists 的 slabs _partial 链表 ,如 果 此 链表 不 为 空 则 
从 此 链表 中 获得 数据 对 象 。 否 则 继续 检查 nodelists 的 slabs _ free 链表 是 否 为 空 , 如 果 此 链表 
不 为 空 则 从 此 链表 中 获得 数据 对 象 ,否则 转 到 第 5 步 。 

(4) 使 用 slab get _obj 图 数 , 从 nodelists 的 slabs ”partial 链表 或 者 slabs _ free 链表 中 获 
得 数据 对 象 ,并 装填 到 当前 Cache 的 array 中 。slab _ get _ obj 函数 将 调用 slab _bufctl 函数 维 
护 Slab 中 的 kmem _ bufctl t 数 组 。 转 到 第 6 步 。 

3 了 39 


(5) 使 用 cache _ grow 函数 创建 新 的 Slab ,并 将 其 加 到 nodelists 的 slabs__free 链表 中 。 
(6) 从 array 中 获得 数据 对 象 然后 返回 。 
cache _ alloc 图 数 的 实现 过 程 并 不 十 分 完美 ,有 些 程序 书写 得 很 兄长 ,这 段 程序 的 结 
构 也 存在 着 一 些 问题 。 但 其 仍 不 失 为 一 段 好 程序 。 该 函数 的 源 代码 较 长 ,本 书 为 节约 篇 幅 不 
再 列 出 ,希望 读者 务必 与 其 源 代 码 对 应 ,仔细 理解 该 函数 的 执行 流程 。 
Linux 系统 主要 使 用 kmem _ cache _ alloc 函数 创建 专用 数据 对 象 。 但 也 经 常 使 用 一 些 “ 封 
装 过 "的 国 数 。 如 创建 专用 数据 对 象 task _struct 时 ,Linux 系统 使 用 alloc_task struct 函数 ， 
该 函数 将 调用 kmem _ cache _ alloc 函数 从 专用 Cache 描述 符 task _struct _cachep 中 分 配 一 个 
task struct 结构 。 
2. 数据 对 象 的 释放 
Linux 系统 使 用 kmem _ cache free 和 kfree 函数 ,释放 数据 对 象 。 这 两 个 函数 最 终 调 用 
__ Cache _ free 图 数 释放 数据 对 象 。_ “cache free 函数 与 kmem _ cache free 函数 的 输入 参数 
相同 ,分 别 为 cachep 和 objp。 其 中 cachep 参数 指向 Cache 描述 符 ,而 objp 参数 指向 将 要 被 释 
放 的 数据 对 象 。 
kfree 盟 数 的 输入 参数 只 有 一 个 , 即 所 释放 数据 对 象 的 虚拟 地 址 的 指针 objp。 在 kfree 函 
数 中 ,首先 使 用 virt _ to _ cache 函数 根据 虚拟 地 址 获得 objp 的 物理 页 面 指针 ,然后 通过 该 物理 
页 面 指针 获得 数据 对 象 所 在 的 Cache 描述 符 , 最 后 调用 cache _ free 函数 释放 数据 对 象 。__ 
cache _ free 畏 数 的 执行 流程 如 下 : 
@ 调用 cpu _ cache _ get 函数 获得 当前 Cache 的 array 人 参数。 
e 如 采 当 前 Cache 的 array 中 还 有 空间 , 则 将 数据 对 象 直 接 释 放 到 array 中 ,完成 数据 对 象 
的 释放 。 

e@ 如 果 当 前 Cache 的 array 中 没有 空间 , 则 调用 cache _ flusharray 函数 ,重新 整理 array 中 
的 数据 对 象 ,将 array 中 的 数据 对 象 加 入 到 Cache- > nodelists- > slabs _ free 链表 中 。 随 
后 完成 数据 对 象 的 释放 。 

至 此 我 们 讲述 了 数据 对 象 的 创建 与 释放 ,从 上 述 过 程 中 可 以 看 到 ,Slab 分 配器 中 使 用 了 许 
多 缓存 以 提高 数据 对 象 管理 的 效率 。 在 绝 大 多 数 情况 下 ,Linux 系统 创建 与 释放 数据 对 象 的 
效率 都 非常 高 


7.4 VM 空间 


从 上 文中 ,可 以 发 现 如 果 用 户 使 用 Buddy System ,进行 内 存 申请 ,可 以 获得 的 最 大 内 存 是 
2™*xo"e 个 页 面 , 即 16 MB; 如 果 使 用 Slab 分 配器 ,可 以 获得 的 最 大 内 存 是 217 字 节 , 即 128 KB。 

由 此 可 见 ,需要 一 段 相 对 较 大 的 物理 地 址 连续 的 内 存 空间 如 2 MB 时 ,可 以 使 用 Buddy 
System 或 者 Boot Memory, 但 是 在 Buddy System 和 Boot Memory 中 ， 物理 地 址 连续 的 空间 十 
分 珍贵 ,因此 Linux 系统 提供 了 一 种 特殊 的 内 存 分 配方 式 , 即 不 连续 内 存 分 配 。 

在 Linux 系统 中 ,使 用 vmalloc 和 vfree 函数 进行 这 种 内 存 的 申请 与 释放 。Linux 系统 将 这 

空间 放 在 宏 VMALLOC _ START 与 VMALLOC _ END 之 间 。vmalioc 函数 将 使 用 这 段 在 
waioc- START 和 VMALLOC _ END 之 间 的 空间 ,进行 内 存 分 配 ,下 文 将 这 段 空间 称 为 

空间 。Linux PowerPC 在 . /include/asm-ppc/pgtable.h 文件 中 定义 这 两 个 宏 : 
360 


# define VMALLOC _ OFFSET (0x1000000) A¥ 16M #/ 


# define VMALLOC _ START \ 
({((long)high_ memory + VMALLOC _ OFFSET) & ~{(VMALLOC _ OFFSET— 1))) 
define VMALLOC END ioremap _ bot 


由 以 上 定义 ,可 以 发 现 宏 VMALLOC _ START 与 high _ memory 参数 有 关 , 其 值 16 MB 
对 界 。 在 Linux 系统 中 ,high_ memory 是 一 个 全 局 变量 ,保存 当前 系统 的 高 端 内 存 的 起 始 地 
址 。 如 果 Linux 系统 使 能 了 HIMEM 空间 ,而 且 其 物理 内 存 大 于 或 者 等 于 768 MB 时 , 安 
VMALLOC _ START 的 值 为 0xF100-0000; 如 果 一 个 处 理 器 没有 使 用 HIMEM 空间 ,而 且 其 
物理 内 存 小 于 768 MB 时 ,如 当前 处 理 器 系统 只 有 256 MB 时, 宏 VMALLOC _START 的 值 为 
0xD100-0000(256 MB + 16 MB + 0xC000-0000 ) 。 

宏 VMALLOC END 的 值 与 ioremap _ bot 参数 有 关 ,ioremap _ bot 参数 保存 ioremap 图 
数 使 用 的 虚拟 地 址 空间 尾部 ,该 变量 在 . /arch/powerpc/mm/init _32.c 文 件 中 初始 化 


#ifdef CONFIG_ HIGHMEM 

ioremap _ base = PKMAP BASE.; 
# else 

ioremap _ base = 0xfe000000UL; /¥ for now, could be Oxfffff000 */ 
#endif /* CONFIG HIGHMEM */ 


ioremap _ bot = ioremap base 


如 果 Linux 系统 使 用 HIMEM 空间 , 则 ioremap base 变量 为 PKMAP _ BASE, 否则 该 变 
量 为 0xfe00-0000。 在 Linux PowerPC 中 ,PKMAP BASE 在 ./include/asm-ppc/highmem.h 
文件 中 定义 ,其 值 为 0xfe00-0000。 目 前 在 . /include/asm-powerpc 目录 中 还 没有 highmem.h 
文件 。 

程序 员 在 使 用 VM 空间 时 ,需要 十 分 谨慎 ,一 般 只 推荐 在 Swap 对 换 区 和 设备 驱动 程序 
中 ,对 性 能 要 求 不 高 但 是 所 占 空间 相对 较 大 的 内 存 中 使 用 。 因 为 使 用 vmalloc 分 配 的 空间 的 分 
配 、 释 放 与 使 用 Buddy System 或 者 Slab 分 配器 管理 的 内 存 相 比 ,效率 较 低 

VM 空间 由 全 局 指针 vmlist 统一 管理 ,该 指针 指向 一 个 vm _ struct 结构 的 数据 ,该 结构 的 
定义 在 . /include/inux/vmalloc.h 文件 中 ,其 源 代 码 如 下 : 


struct vm _ struct | 
/# keep next,addr, size together to speedup lookups * / 
struct vm _ struct 其 next; 
void x* addr; 
unsigned long Size; 
unsigned long flags; 
Struct page 共 区 pages:; 
unsigned int nr pages; 
unsigned long phys_ addr; 
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在 VM 空间 中 ,有 一 段 非常 重要 的 空间 , 外 部 设备 驱动 程序 的 ioremap 函数 使 用 VM 空 
间 ,实现 外 部 设备 物理 地 址 到 虚拟 地 址 的 转换 、ioremap 函数 调用 ioremap 函数 完成 物理 地 
址 到 虚拟 地 址 的 转换 。__ ioremap 国 数 在 . /arch/powerpc/mm/pgtable 32.c 文件 中 定义 。 其 
void _ iomem * 
_ ioremap(phys_ addr _ t addr, unsigned long size, unsigned long flags) 
| 
p = addr & PAGE MASK; 
size = PAGE ALIGN(addr + size) — p:; 


i{ (p< 16*1024* 1024) 
p+= _ISA_ MEM BASE; 


if (mem _ init_ done && (p < virt_to_ phys(high memory))) | 
printk(”__ ioremap( ):; phys addr “PHYS _ FMT is RAM 1r % \n, p, 
_ builtin returmn _ address(0) ); 
retum NULL:; 
| 
这 (size == 0) 
return NULL:; 


_ ioremap 阴 数 共有 三 个 输入 参数 ,分 别 为 addr、size 和 flags 参数 。addr 参数 用 来 保存 需 
要 进行 映射 的 物理 地 址 ;size 参数 用 来 保存 需 要 映射 的 空间 大 小 ;flags 参数 用 来 描述 映射 空间 
的 页 面 属性 。 

_ ioremap 函数 程序 首先 对 参数 进行 检查 ,检查 当前 物理 地 址 是 否 在 [SA 总 线 的 地 址 空 
则 中 ,在 Linux PowerPC 中 并 没有 ISA 总 线 空间 。 

ioremap 图 数 在 Buddy System 初始 化 完毕 之 后 ( 即 mem _ init _ done 参数 为 1 后 ), 其 物 
理 地 址 p 对 应 的 虚拟 地 址 不 能 大 于 high_ memory, 即 不 能 占用 HIMEM 空间 。 


if ((v = p_ mapped_by_ bats(p)) /*#&& p_mapped by_ bats(p+size—1)*/) 
goto out; 


if ((v = p_ mapped _ by _ tlbcam(p))) 
EOto out; 


这 段 程序 首先 使 用 p_ mapped _ by _ bats 函数 ,试图 在 DBAT 中 进行 物理 地 址 的 映射 。 
但 是 E500 内 核 不 支持 DBAT, 因 此 对 于 E500 内 核 ,使 用 该 函数 一 定 无 法 获得 虚拟 地 址 。 基 
于 E500 内 核 的 Linux PowerPC,p_ mapped _ by _ bats 函数 的 返回 值 为 0。 

然后 这 段 程序 继续 调用 p_ mapped _ by _ tlbcam 函数 ,试图 在 TLB1 中 ,进行 物理 地 址 的 
映射 ,如 果 系 统 程序 员 没 有 使 用 7.1.1 刷 中 的 io_block _ mapping 函数 事先 进行 虚实 地 址 映 
射 , 则 该 函数 不 会 获得 虚拟 地 址 。 
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在 Linux 系统 中 ,io_block _ mapping 函数 所 能 映射 的 空间 ,应 该 在 VM 空间 之 内 。 但 是 

有 一 些 系 统 程 厅 员 并 没有 这 样 做 ,这 也 是 Linux 系统 维护 者 取消 io _ block_ mapping 函数 的 重 

要 原因 。Linux 系统 可 以 支持 各 式 各 样 的 应 用 ,并 将 这 些 应 用 的 共性 集中 放 到 Linux 内 核 中 ， 

也 是 因为 这 个 原因 ,一 个 标准 的 Linux 系统 .也 许 不 能 在 一 个 特定 的 应 用 中 ,发 挥 最 大 的 效率 。 
让 (mem _ init_ done) | 


struect vm _ struct * aAreas 


area = get_ vm_ area(size, VM IOREMAP); 


if (area == 0) 
return NULL: 
Vv = (unsigned long) area- > addr; 
| else | 
Vv = (ioremap_ bot -= size); 


| 


这 段 程序 是 _ ioremap 函数 最 重要 的 代码 。 在 Linux PowerPC 的 标准 发 布 版 本 中 ,并 没 
有 使 用 io _ block” ”mapping 函数 。 因 此 在 Linux PowerPC 中 ,物理 地 址 到 虚拟 地 址 进行 映射 
时 ,必须 使 用 这 段 代 码 。 这 段 代码 中 首先 对 mem _ init _ done 参数 进行 判断 
如 果 mem init done 参数 为 1, 即 mem _init 国 数 执行 完毕 ,Buddy System 已 经 初始 化 
完毕 。 此 时 ioremap 函数 调用 get _vm _ area 图 数 在 VM 空间 获得 一 段 虚 拟 地 址 。 
Linux 系统 使 用 vm _ struct 结构 管理 VM 空间 ,而 vm _ struct 缘 多 由 kmalloc 图 妆 进 行 
分 配 。 使 用 get vm _area 函数 时 ,mem _ init done 变量 必须 为 ]. 
@ 如 采 mem _init_ done 为 0, 即 mem _ init 图 数 设 有 执行 完毕 ,此 时 只 能 从 VM 空 间 的 尾 
部 预 留 虚 拟 地 址 空间 ,虚拟 空间 分 配 完 毕 后 将 调整 VM 空间 的 大 小 。 由 上 文 得 郑 安 
VMALLOC _ END 等 效 于 ioremap bot。 在 Linux 系统 中 ,setup _ arch 畏 数 和 init _ 
IRQ 函数 中 也 会 使 用 ioremap 函数 ,此 时 Buddy System 并 没有 初始 化 完毕 ,因此 必须 使 
用 这 种 方式 ,建立 物理 地 址 到 虚拟 地 址 的 映射 
if ((flags & _ PAGE PRESENT) == 0) 
flags |= _ PAGE KERNEL; 
if (flags 必 PAGE_ NO _ CACHE) 
flags | = _ PAGE_ GUARDED; 


¥ 
# Should check if i is a candidate for a BAT mapping 
x/ 


err = 0: 

for (i = 0;1 < size RG er == 0;1+= PAGE SIZE) 
err = map_ page(v+i, p+i, flags); 

if (err) | 
if (mem _ init done) 
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vunmap( (void * )v); 
return NULL; 


Out: 
return (void _ iomem * ) (v + ((unsigned long)addr & 一 PAGE MASK)):; 
| /x End ioremap */ 


这 段 程序 首先 对 flags 参数 进行 互 斥 检查 ,之 后 调用 map _ page 函数 ,建立 pte 表 ,将 获得 
的 虚拟 地 址 与 物理 地 址 联系 在 一 起 。 如 果 用 户 使 用 TLB1 进行 虚实 地 址 映 映 时 ,不 需要 使 用 
pte 表 。 最 后 这 段 程序 将 获得 虚拟 地 址 返回 。 


1.9 HIMEM 


HIMEM 占用 内 核 PKMAP BASE 一 0xFFFFF000 之 间 的 虚拟 空间 。 在 Linux PowerPC 
中 PKMAP _ BASE 为 0xFE000000 ,因此 这 上段 空间 的 大 小 为 32764KB。 所 有 的 高 端 内 存 , 即 大 
于 768MB 的 内 存 , 需 要 映射 到 这 段 空 间 后 ,才能 被 Linux 内 核 访 问 。 

Linux 系统 为 HIMEM 提供 了 两 个 函数 kmap 和 kunmap,kmap 图 数 用 来 将 高 器 内 存 映 射 
到 低 端 ,而 kunmap 图 数 将 解除 这 种 空间 了 映射 。 

对 于 多 数 基于 PowerPC 处 理 器 的 应 用 ,其 物理 内 存 一 般 小 于 768MB, 因 此 不 需要 使 用 
HIMEM。 而 拥有 较 大 内 存 的 服务 器 一 般 会 使 用 64 位 PowerPC 处 理 器 ,因此 HIMEM 实际 上 
并 没有 太 大 的 用 武之 地 ， 

有 许多 Linux 系统 程序 员 ,采用 改变 CONFIG KERNEL _ START 参数 的 方法 对 Linux 
系统 中 超过 768 MB 的 物理 内 存 进行 管理 。 本 书 并 不 建议 采用 这 种 方式 。 因 为 当 用 户 改变 了 
CONFIG_ KERNEL _ START 参数 后 ,会 对 整个 Linux 内 核 的 内 存 管理 得 成 一 定 的 影响 , 虽 
然 这 种 影响 并 不 大 。 

Linux 系统 内 存 管理 的 系统 设计 者 考虑 到 ,有 人 会 改写 CONFIG_ KERNEL _ START 参 
数 , 从 而 采取 了 一 些 相应 的 措施 ,但 是 这 些 措施 并 没有 被 充分 地 测试 。 

Linux 系统 对 HIMEM 的 管理 的 实现 与 Slab 分 配器 的 实现 相 比 较为 简单 ,也 比较 容易 分 
析 ,希望 读者 能 够 自行 分 析 这 些 代 码 。 许 多 系统 程序 员 对 Linux 系统 的 HIMEM 较为 排斥 。 
在 多 数 情况 下 .他 们 不 喜欢 一 个 系统 中 .因为 先天 不 足 而 后 加 人 的 特性 。 


7.6 进程 地 址 空间 


第 5 章 提 到 ,在 Linux 系统 中 ,进程 分 为 核心 进程 与 用 户 进程 。 其 中 核心 进程 与 Linux 内 
核 共 宇 正文 段 与 数据 段 , 因 此 核心 进程 的 地 址 空间 在 Linux 内 核 的 地 址 空间 中 ,而 用 户 进 程 占 
用 Linux 系统 0 一 3 GB 这 段 虚 存 空间 。 提 柄 读者 注意 ,Linux 系统 的 每 一 个 用 户 进程 都 有 各 上 月 
的 3 GB 虚 存 空间 ,在 其 运行 时 都 将 使 用 0 一 3 GB 这 段 虚 存 空间 。Linux 进程 地 址 空间 的 设计 
较为 复杂 ,本 书 将 简单 介绍 这 部 分 内 容 。 
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7.6.1 进程 的 内 存 描述 符 


Linux 系统 使 用 mm _ struct 结构 ,对 用 户 进程 的 地 址 空间 进行 描述 - 由 第 3 章 所 述 ,每 一 
个 进程 都 有 一 个 进程 描述 符 task 3 structs, 其 中 task structs—>mm 指 癌 各 目 进程 的 内 存 描述 
符 mm _ struct。 在 进程 进行 切换 时 ,也 需要 对 mm _ struct 参数 进行 切换 。 数 据 结 构 mm 
struct 的 定义 在 .vincludevlinuxysched.h 文件 中 ,其 主要 数据 成 员 如 下 也 示 : 


struct mm _ struct | 
struct vm _ area struct * mmap; A/* list of VMAs */ 
struct tb _ root mm _ 中; 
pgd _t * pgd; 
struct list “head mmlist: 
unsigned long start_ code, end code, start_ data, end _ data; 
unsigned long start _ brk, brk, start_ stack; 
unsigned long arg_ start, arg_ end, env_ start, env _ end; 


(1) mmap 参数 。 用 户 进程 一 共 使 用 3GB 大 小 的 空间 。 而 实际 上 ,大 多 数 进程 不 可 能 使 
用 这 么 大 的 内 存 空间 ,因此 这 些 空间 使 用 数据 结构 vm _ area _ struct 分 段 进行 管理 。mmap 参 
效 将 这 些 空间 连接 在 一 起 : 

(2) mm _ tb 参数。 普通 进程 只 有 几 个 使 用 mmap 参数 连接 在 一 起 的 内 存 空间 段 ,有 关 这 
些 内 存 空间 段 的 详细 信息 可 以 参阅 /proc/ID/map 文件 。 对 于 绝 大 多 数 进程 ,采用 什么 方式 组 
织 这 些 内 存 空间 段 并 没有 太 大 关系 . 但 是 在 Linux 系统 中 ,存在 某 些 数据 库 应 用 ,其 中 包含 了 
许多 内 存 空间 段 , 因 此 需要 使 用 某 种 快速 算法 用 来 对 当前 进程 的 所 有 内 存 空间 段 进 行 管理 . 

在 Linux 系统 中 ,find _ vma 函数 将 经 常 被 使 用 ,这 个 函数 的 主要 作用 是 查找 当前 进程 的 
虚拟 地 址 所 在 的 内 存 空 间 段 ， 这 个 函数 使 用 mm _ rb 参数 ,对 当前 进程 的 所 有 内 存 空间 段 进 
行 扫描 ,其 扫描 速度 决定 了 进程 地 址 空间 的 管理 效率 - 

为 此 Linux 使 用 红 黑 树 结构 将 这 些 内 存 空间 段 组 织 管理 起 来 .mm _ rb 参数 是 Linux 进程 
地 址 空间 管理 ,实现 红 黑 树 算法 的 数据 结构 ， 本 书 不 对 红 黑 树 算法 进行 讨论 。 对 此 有 兴趣 的 
读者 可 以 参考 Chris Okasaki 所 著 的 Purely Functional Data Structures。 

(3) pgd 参数 。 每 一 个 进程 都 有 自己 的 pgd 指针 ,指向 各 自 进程 的 PGD 的 基地 址 。 不 同 
的 进程 使 用 不 同 的 pgd 参数 ,进行 虚实 地 址 的 转换 。Linux 系统 使 用 pgd 参数 将 每 一 个 用 户 
进程 的 地 址 空间 分 开 ,虽然 这 些 用 户 进程 都 使 用 0 一 3GB 的 虚拟 地 址 空间 ， 

(4) mmlist 参数 。 这 个 参数 将 所 有 的 mm _ struct 数据 结构 链接 在 一 起 。 

(5) start _code. end _ code 参数 。 这 组 参数 描述 当前 进程 正文 段 的 起 始 与 结束 地 址 。 

(6) start _data， end data 参数 。 这 组 参数 描述 当前 进程 数据 段 的 起 始 与 结束 地 址 : 

(7) start _brk，brk 参数 。 这 组 参数 描述 当前 进程 数据 堆 段 的 起 始 与 结束 地 址 。 

(8) start _ stack 参数 。 这 组 参数 摘 述 当前 进程 栈 段 的 起 始 地 址 。 

(9) arg _start，arg _end 参数 ， 这 组 参数 描述 当前 进程 存放 的 命令 行 参数 的 起 始 与 结束 
地 址 ， 

(10) env start, env_ end 参数 。 这 组 参数 描述 当前 进程 存放 的 C 环境 变量 的 起 怒 写 绽 
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束 地 址 。 

1. 内 存 描 述 符 的 创建 与 初始 化 

在 Linux PowerPC 中 ,第 一 个 内 存 描 述 符 mm _ streut 是 全 局 变量 init mm 即 进 程 0 的 
active _ mm 参数 , 即 init _ task 一 >active mm 被 初始 化 为 init mm 

init _ mm 变量 的 定义 在 . /arch/powerpc/kernel/init _task.c 文件 中 。 在 这 个 文件 中 ,使 
用 宏 INIT_ MM 对 此 全 局 变量 进行 初始 化 


struct mm _ struct init mm = INIT MM(init mm); 
# define INIT_ MMI(name) \ 
| 
.mm _h = RB ROOT， 
:PEd = swapper_ pg_ dir, 
Imm _ users = ATOMIC INIT(2), 
-mm count = ATOMIC _ INIT(]), 
mmap_sem = _ RWSEM INITIALIZER(name.mmap sem)， 
-Page_ table_ leck = _ SPIN_ LOCK _ UNLOCKED(name.page_ table_ lock), 
.mmlist = LIST_ HEAD [NIT(name. mmlist), 
pu vm mask = CPU MASK ALL, 
| 


除 init _ mm 内 存 描述 符 之 外 ,其 他 内 存 描述 符 都 在 新 进程 创建 时 由 do _fork 函数 创建 
内 存 描述 符 的 创建 流程 如 图 7-14 所 示 。 这 里 提醒 读者 注意 , Linux 系统 的 核心 进程 和 整个 
Linux 内 核 共享 内 存 空间 .因此 没有 内 存 描述 符 , 这 类 进程 描述 符 的 task _ struct- 之 mm 参数 为 
NE 


J OO 


| Copny Process 


copY_mm 
dup mm | 
allocate mm | nit_ new context dup_imimap get Mmm rss 


图 7-14 内存 描 述 符 的 创建 


如 上 图 所 示 .Linux 系统 使 用 dup_ mm 函数 创建 进程 的 内 存 描述 符 ，dup _ mm 函数 的 源 
代码 在 . /ernel/fork.c 文件 中 ,其 执行 流程 如 下 : 

9 首先 调用 allocate_ mm 一 kmem _cache alloe 函数 ,从 mm _ cachep( 专 用 Cache) 中 ,获得 
mm _ struct 所 帘 要 的 空间 。 为 了 提高 mm _struct 结构 的 访问 速度 ,Linux 系统 使 用 专 
用 Cache mm _cachep ,存放 mm _struct 结构 ,而 不 使 用 kmalloc 函数 申请 mm _struct 使 
用 的 内 存 空间 

9 膨 用 mm _ init 图 数 将 mm _ struct 结构 的 基本 数据 成 员 进行 初始 化 。mm _ init 函数 调 
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用 mm _ alloc _ pgd 函数 ,为 当前 内 存 描述 符 分 配 PGD 表 。 在 Linux 系统 中 ,每 一 个 用 
户 进程 都 有 独立 的 PGD 表 , 每 一 个 用 户 进程 都 有 独立 的 进程 虚拟 地 址 空间 。 
e@ 调用 init_new _context,dup mmap 和 get mm _rss 函数 将 mm _ struct 结构 的 其 他 参 
数 初始 化 。 
2. 内 存 描述 符 的 释放 
Linux 系统 在 进程 结束 时 ,释放 进程 内 存 描述 符 ,进程 内 存 描 述 符 的 释放 基本 上 是 内 存 摘 
述 符 创 建 的 逆 过 程 ,其 调用 顺序 如 图 7-15 所 示 。 


mnaput 


图 7-15 ”内 存 描述 符 的 释放 


Linux 系统 调用 mmdrop 一 > mm _ free _pgd 晴 数 ,释放 进程 的 PGD 表 , 最 后 调用 free _ 
mm 函数 将 内 存 描 述 符 彻底 释放 。 本 书 不 再 讲述 这 段 程 序 的 细 市 。 


7.6.2 与 进程 地 址 空间 有 关 的 系统 调用 


在 Linux 系统 中 ,用 户 可 以 使 用 一 系列 系统 调用 ,与 进程 地 址 空间 进行 交互 ,不 过 多 数 系 
统 调用 对 于 Linux 系统 的 使 用 者 并 没有 太 大 帮助 ,可 能 有 些 程序 员 从 来 没有 使 用 过 这 些 系 统 
调用 。 

1. 系统 调用 brk 

brk 是 使 用 最 为 频繁 的 系统 调用 ,用 户 进 程 可 以 通过 该 系统 调用 ,向 Linux 内 核 申 请 内 存 
空间 。 该 系统 调用 可 以 调整 用 户 进程 堆 空 间 的 大 小 ,使 堆 扩展 或 者 缩小 。Linux 系统 使 用 sys 

_ brk 函数 实现 此 系统 调用 。 当 用 户 的 堆 空 间 过 小 时 ,可 以 使 用 该 系统 调用 扩大 堆 空 间 ; 用 户 

可 以 使 用 该 系统 调用 释放 内 存 空间 。 然 而 大 多 数 应 用 程序 都 没有 直接 使 用 brk 系统 调用 申请 
和 释放 内 存 空 间 ,而 是 使 用 malloc 和 free 函数 申请 和 释放 内 存 空 间 。 | 

应 用 程序 为 malloc 和 free 函数 维护 了 一 个 Buffer。 当 应 用 程序 执行 malloc 函数 时 ,如 果 
该 Buffer 中 有 空闲 的 内 存 空间 , 则 从 Buffer 中 获得 内 存 空间 ; ;如 用 Buffer 中 没有 空闲 的 内 存 空 
间或 者 剩余 的 内 存 空间 小 于 一 个 冰 值 ,malloc 函数 将 调用 brk 系统 调用 向 Linux 内 核 申 请 内 
存 空间 ,同时 装填 Buffer。 当 应 用 程序 执行 free 函数 时 ,将 释放 的 内 存 空间 直接 放 入 Buffer 
中 , 当 Buffer 中 的 内 存 空间 超过 一 个 阅 值 后 ,free 函数 将 调用 brk 系统 调用 将 内 存 空间 归还 给 
Linux 内 核 。 

在 Linux 2.4 的 内 核 中 ,sys _ brk 函数 有 个 漏洞 ,该 函数 在 调整 用 户 进 程 的 堆 空间 时 ,没有 
对 参数 len 进行 检查 ,也 没有 对 brk 函数 的 addr+ len 是 否 超 过 TASK _ SIZE 做 检查 。 这 样 黑 
客 就 可 以 提交 任意 大 小 的 参数 len, 改 变 用 户 进程 的 大 小 ,其 至 可 以 超过 TASK _ SIZE 参数 的 
限制 ,使 Linux 系统 认为 内 核 使 用 的 内 存 空 间 也 可 以 被 用 户 访 问 。 这 样 普通 用 户 就 可 以 访问 
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内 核 使 用 的 内 存 区 域 ,之 后 通过 堆 溢 出 操作 ,获得 管理 员 权限 。 

2. 系统 调用 execve 

execve 系统 调用 改变 当前 进程 的 地 址 空间 ,将 之 前 继承 的 父 进程 的 地 址 空间 更 换 为 系统 
调用 execve 指定 的 进程 地 址 空间 。Linux 系统 使 用 do _ execve 函数 实现 此 系统 调用 。 在 Lin- 
ux 2.4 中 ,这 个 函数 的 实现 也 有 些 漏洞 ,execve 系统 调用 允许 进程 在 执行 目标 程序 之 前 ,使 用 
clone 系统 调用 复制 一 个 进程 , 读 取 被 执行 的 程序 文件 。 攻 击 者 可 以 利用 此 漏洞 , 读 取 正 常情 
eT 目前 还 设 有 黑客 利用 这 个 漏洞 来 攻击 Linux 系统 的 实例 。 

. 系统 调用 mmap,mmap2 

mmap,mmap2 系统 调用 可 以 把 文件 映射 到 内 存 中 。 在 Linux 系统 中 ， 使 用 sys _ mmap 加 
数 和 sys _ mmap2 函数 实现 此 系统 调用 。 

最 快 的 磁盘 访问 往往 慢 于 最 慢 的 物理 内 存 访问 ,所 以 使 用 mmap 系统 调用 ,可 以 加 速 文件 
的 I/O 访问 速度 。 此 外 mmap 系统 调用 可 以 使 进程 通过 映射 相同 的 文件 ,实现 共享 内 存 。 使 
用 这 类 系统 调用 后 ,各 进程 可 以 像 访问 普通 内 存 一 样 对 文件 进行 访问 。 值 得 注意 的 是 ,具有 直 
接 血 缘 关 系 的 进程 间 , 也 可 以 使 用 匿名 文件 进行 内 存 映射 ,而 不 需要 具体 的 文件 句柄 。 

4. 系统 调用 mremap 

应 用 程序 使 用 mremap 系统 调用 改变 内 存 空 = 间 段 的 边界 地 址 。 在 Linux 系统 中 ,使 用 do_ 

mremap 函数 实现 此 系统 调用 。 

do_ munmap 函数 首先 要 清除 在 新 位 置 中 任何 已 经 存在 的 内 存 上 映射 ,也 就 是 删除 旧 的 内 
存 空间 段 ,然后 再 建立 新 的 内 存 空 间 段 。 这 段 代 码 没有 对 do _ munmap( ) 函数 的 返回 值 进 行 
检查 ,因此 如 果 可 用 vm _ area _ struct 描述 符 的 最 大 数 已 经 超出 ,那么 函数 调用 可 能 会 失败 。 
黑客 可 以 巧妙 地 利用 这 一 漏洞 ,使 用 系统 调用 mremap 对 Linux 系统 进行 攻击 。 攻 击 的 详细 
方法 见 http: //isec. pl/vulnerabilities/isec-0014-mremap-unmap. txto 

5. 系统 调用 munmap 

munmap 系统 调用 是 系统 调用 mmap 的 逆 过 程 。 在 Linux 内 核 中 ,使 用 munmap 函数 实现 
这 一 系统 调用 。Linux 系统 还 有 fork, exit, shmat, shmdt 等 一 系列 系统 调用 ,这 些 系统 调用 也 
可 以 与 Linux 系统 的 进程 地 址 空间 进行 交互 ,本 书 对 此 将 不 一 一 叙述 。 


7.6.3 ”用 户 进 程 地 址 空间 与 Linux 内 核 之 间 的 数据 交换 


用 户 编写 设备 驱动 程序 时 ,需要 交换 用 户 进 程 地 址 空间 与 Linux 内 核 间 的 数据 。 在 Linux 
系统 中 ;用 户 进 程 地 址 空间 存放 的 数据 并 不 可 靠 , 因 为 这 些 数据 并 不 能 保证 一 定 在 物理 内 存 中 
有 效 。 

因为 Linux 系统 为 了 保证 物理 内 存 的 利用 率 ,不 可 能 将 用 户 进 程 地 址 空间 中 的 所 有 数据 
都 存放 到 物理 内 存 中 。 为 此 Linux 系统 提供 一 系列 函数 ,进行 用 户 进程 地 址 空间 与 Linux 内 
核 之 间 的 数据 交换 。 这 些 函 数 在 . /include/asm-powerpc/uaccess.h 文件 中 。 

某 些 设备 驱动 程序 需要 保证 其 访问 的 数据 必须 在 物理 内 存 中 ,如 进行 DMA 传送 时 ,DMA 
控制 硕 将 直接 访问 物理 内 存 ,DMA 控制 器 并 不 知道 其 访问 的 数据 是 否 在 物理 空间 内 ,因为 
DMA 控制 絮 无 法 对 此 进行 检查 。 但 是 DMA 控制 器 要 求 其 访问 的 数据 必须 在 有 效 的 物理 地 
址 空间 中 。 

在 Linux 系统 中 ,用 户 进程 地 址 空间 与 Linux 内 核 之 间 的 进行 数据 交换 时 ,经 常 使 用 copy 
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_ from _ user 和 copy .to _ user 函数。 图 数 copy _ from _ user 将 用 户 进 程 地 址 空间 的 数据 复制 
到 内 核 空 间 ;copy _ to _ user 函数 将 内 核 空 间 的 数据 复制 到 用 户 进 程 地 址 空间 。 这 两 个 函数 调 
用 顺序 如 图 7-16 所 示 。 


copy_from user 
access ok 


__Copy_tofrom user 
__Ccopy_tofrom _ user 


图 7-16 ”进程 地 址 空间 与 Linux 内 核 空间 数据 交换 使 用 的 函数 


这 两 个 函数 的 实现 较为 简单 ,首先 调用 access _ ok 函数 ,判断 相应 数据 空间 的 读 号 属 性 是 
否 合 法 ,之 后 调用 copy _ tofrom _ user 函数 ,进行 内 存 搬移 。 在 Linux PowerPC 中 ，_ copy _ 
tofrom ”user 函数 在 . /arch/powerpcAib/copy _ 32.S 文件 中 。 

__ copy _ tofrom _ user 限 数 使 用 指令 lwzu, stwu 进行 数据 复制 ,这 一 函数 的 实现 考虑 了 
L1 Cache 的 利用 率 ,因此 这 段 程序 的 实现 较为 复杂 。 可 能 这 段 程序 是 使 用 C 语言 进行 编写 ， 
然后 再 反 汇 编 出 来 的 ,结构 看 起 来 并 不 好 。 

值得 提醒 读者 注意 ,在 _ copy _ tofrom _ user 也 数 进行 数据 复制 时 ,有 时 用 户 进 程 地 址 空 
间 的 数据 并 不 在 物理 内 存 中 ,因此 在 执行 这 段 程序 时 有 可 能 不 断 产 生 缺 页 异常 ,将 在 用 尸 进 程 
地 址 空间 的 数据 放 入 物理 内 存 , 然 后 再 执行 数据 复制 指令 

由 上 文 得 知 ,用 户 进 程 地 址 空间 使 用 PowerPC 处 理 器 的 TLBO0 实现 ,而 内 核 空间 使 用 
TLBI1 实现 ,因此 Linux 系统 访问 内 核 空间 的 数据 时 ,不 会 出 现 TLB Miss 中 汤 , 而 Linux 系统 
访问 用 户 空 间 的 数据 时 会 出 现 TLB Miss 中 汤 。 

设备 驱动 程序 的 设计 者 ,有 时 为 了 提高 效率 ,不 希望 进行 用 户 进 程 地 址 空间 与 Linux 内 核 
之 间 的 数据 交换 ,此 时 有 两 种 做 法 ,可 供 读 者 参考 。 一 种 方法 是 在 用 户 进 程 中 使 用 mlock 函数 
或 者 mlockall 函数 锁定 用 户 进 程 地 址 空间 ,将 用 户 进程 的 某 段 或 者 全 部 地 址 空间 驻 留 在 内 存 
中 。 当 用 户 进 程 地 址 空间 不 需要 锁定 时 可 以 使 用 munlock 函数 和 munlockall 函数 解除 锁定 。 
而 另 一 种 方法 是 在 设备 驱动 程序 中 使 用 sys _ mlock 函数 将 其 使 用 的 用 户 空 间 锁 定 ,然后 再 进 
行 访 问 ,在 访问 结束 后 再 使 用 sys _ munlock 函数 将 这 段 空间 释放 。 

这 里 有 一 个 问题 ,需要 提醒 读者 注意 。 在 用 户 进程 中 的 数据 空间 只 保证 一 个 页 面 内 的 数 
据 物 理 地 址 连续 。 因 此 对 于 任何 一 段 空 间 , 即 便 只 有 32 个 字 节 ,也 可 能 是 存放 在 两 个 不 同 的 
物理 页 面 中 。 如 果 在 设备 驱动 程序 中 使 用 DMA 进行 数据 传送 时 ,需要 将 这 些 数 据 分 成 两 次 
进行 传递 。 

在 Linux 系统 中 ,我 并 没有 从 理论 上 探讨 ,在 用 户 进 程 地 址 空间 的 数据 区 域 是 否 都 是 32 
位 对 界 的 ,但 是 我 仍然 清晰 地 记得 基于 Alpha21264 的 OSF 操作 系统 中 的 进程 地 址 空间 内 的 
有 些 数据 区 域 居 然 不 是 32 位 对 界 。 

当时 我 们 的 设备 驱动 程序 为 了 提高 效率 ,使 用 了 页 面 锁定 的 技术 ,但 是 我 们 认为 所 有 的 数 
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copy_to user 





据 区 域 都 是 32 位 对 界 的 。 我 们 认为 Alpha21264 是 一 个 64 位 处 理 器 ,OSF 也 是 针对 此 处 理 器 
的 64 位 操作 系统 ,所 以 所 有 的 数据 区 域 至 少 是 32 位 对 界 。 然 而 由 此 造成 的 程序 错误 ,耽误 了 
我 们 整个 项 目 组 将 近 一 个 月 的 时 间 。 

因此 我 在 Linux 系统 中 使 用 页 面 锁 定 操作 时 ,一 定 会 检查 数据 区 域 是 否 32 位 对 界 , 虽然 
至 今 为 止 ,我 还 没有 碰 到 数据 区 域 不 是 32 位 对 界 的 情况 。 


7.7 DSIMSI 异常 在 Linux PowerPC 中 的 处 理 


Linux 系统 并 不 信任 用 户 进 程 ,并 随时 准备 处 理 来 自 应 用 程序 的 内 存 访问 错误 。 内 存 访 
问 错误 发 生 在 以 下 两 种 情况 中 。 

(1) 因为 用 户 程序 的 执行 错误 而 导致 的 内 存 访问 错误 。 

(2) Linux 系统 为 完成 某 种 功能 而 故意 制造 的 内 存 访问 错误 。 

Linux PowerPC 将 这 些 内 存 访问 错误 分 为 进程 数据 空间 访问 错 和 进程 程序 空间 访问 错 。 
E500 内 核 也 提供 了 两 种 异常 ,处 理 这 两 种 内 存 访问 错误 ,分 别 为 数据 访问 异常 DSI(Data Stor- 
age Interrupt) 和 指令 访问 异常 ISI(Instruction Storage Interrupt)。 本 书 主要 介绍 DSI 异常 
处 理 。 

PowerPC E500 内 核 产生 DSI 异常 的 主要 原因 如 下 : 

e 谈 取 一 些 在 MMU 中 不 能 进行 读 取 的 地 址 空间 ,向 MMU 中 不 能 写 人 的 地 址 空间 进行 

写 操 作 。Linux 系统 有 时 会 故意 设置 MMU 中 的 页 表 , 以 产生 DSI 异常 ,然后 再 进行 异 
党 处 理 。Linux PowerPC 会 重点 处 理 这 一 类 DSI 异常 。 
当 处 理 顺 访问 的 地 址 空间 跨越 页 边界 ,而 这 相 邻 的 两 个 页 面 使 用 的 端 模式 不 匹配 , 即 一 
个 使 用 大 端 模式 ,一 个 使 用 小 端 模式 时 ,E500 内 核 将 会 产生 DSI 异常 。Linux PowerPC 
一 般 不 会 产生 这 种 类 型 的 DSI 异常 。 因 为 在 Linux PowerPC 中 ,其 管理 的 页 面 一 般 来 
说 ,只 能 全 部 是 大 端的 ,或 全 部 是 小 端的 ,不 会 使 用 混合 页 面 。 

e 一 些 操作 Cache 的 指令 ,有 时 也 会 引起 DSI 异常 ,比如 试图 改变 一 些 已 经 被 锁定 的 

Cache 行 。Linux PowerPC 不 能 恢复 这 类 DSI 异常 。 
e@ 使 用 “lwarx” 和 “stwcx. ”指令 对 Cache-inhibited 空间 进行 访问 时 ,E500 内 核 也 可 以 产生 
DSI 异常 。Linux PowerPC 不 能 恢复 这 类 DSI 异常 。 

Linux PowerPC 使 用 DataStorage 函数 人 处理 DSI 异常 事件 。DataStorage 蚂 数 会 调用 data _ 
access 图 数 进一步 处 理 DSI 异常 事件 。 在 Linux PowerPC 中 ,除了 DSI 异常 处 理 程序 可 以 调 
用 DataAccess 图 数 外 ,还 可 以 从 DTLB Miss 异常 处 理 程序 中 调用 DataAccess 函数 。 


7.7.1 Linux PowerPC 对 DSI 异常 的 处 理 


E500 内 核 在 进入 DSI 异常 之 前 ,自动 保存 和 设置 一 些 寄存 器 ,以 加 速 Linux PowerPC 对 
这 个 异常 的 处 理 过 程 。 
e SRR0 寄存 器 ,保存 引发 DSI 异常 的 指令 有 效 地 址 ,以 便 异 常 返回 时 进行 现场 恢复 。 
e@ SRR1 寄存 器 ,保存 引发 DSI 异常 时 MSR 寄存 器 ,以 便 异 常 返回 时 进行 现场 恢复 。 
e@ ESR 寄存 器 ,保存 引发 DSI 异常 的 条 件 及 状态 。 
e MSR 寄存 器 ,保留 MSR 寄存 器 的 CE,ME 和 DE 位 ,其 余 位 清 零 。 
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e DEAR 寄存 器 ,保存 引发 DSI 异常 的 数据 有 效 地 址 , 即 对 哪 一 个 数据 进行 读 写 操 作 时 引 
发 了 DSI 异常 . 
Linux PowerPC 使 用 DataStorage 函数 处 理 DSI 异常 。 
SET _ TIVOR(2, DataStorage); 


Linux PowerPC 使 用 宏 SET TVOR ,将 DataStorage 函数 的 低 16 位 地 址 赋值 给 寄存 器 
IVOR2 ， 当 E500 内 核 的 DSI 异常 来 临时 ,DataStorage 图 数 可 以 在 IVPR 和 JVOR2 指定 的 地 
址 处 执行 ,DataStorage 尔 数 的 源 代 公 如 下 所 示 : 


START _ EXCEPTION( DataStorage) 

mtspr SPRN SPRGO, rl0 / Save some working registers * / 
mtspr SPRN_ SPRG1, rl1l 

mtspr SPRN _ SPRG4W, rl12 

mtspr SPRN SPRGSW, rl3 

mfer rll 

mtspr SPRN _SPRG7W, ri1 


DataStorage 函数 首先 使 用 E500 内 核 的 SPR 寄存 器 ,保存 在 该 异常 处 理 函 数 中 使 用 的 寄 
存 器 。 


mfspr ri0, SPRN ESR 
andis. rl10, rl0, ESR ST@h 
beq 2f 


如 果 在 E500 内 核 中 ,ESR 寄存 器 的 ST 位 为 1, 则 表示 由 存储 器 写 操 作 引 发 DSI 异 稍 ,和 否 
则 跳 转 到 标签 2f 处 执行 。ESR 寄存 器 记录 了 引发 异常 的 状态 位 ,与 ISIADSI 异常 相关 的 位 有 
ST fy(Store operation), DLK fy (Data Cache Locking), ILK 位 (Instruction Cache Locking) 和 
BO fy (Byte-ordering Exception). 

DataStorage 国 数 只 能 修复 部 分 由 存储 器 写 操作 引发 的 DSI 异常 ,其 他 原因 引发 的 DSI 异 
党 需要 由 标签 2f 中 的 data _ access 画 数 进行 修复 . 


nmfspr rl0, SPRN DEAR /x Get faulting address 关 V 


lisrll, TASK SIZEh 
orirll, rll,. TASK SIZEGI 
cmplw 0, rl0, rll 
bge 2{ 
这 段 程序 对 DEAR 寄存 器 进行 检查 。 如 果 引 发 DSI 异常 的 数据 有 效 地 址 属于 Linux 内 
核 室 间 , 则 跳 转 到 标签 2f, 由 data access 函数 处 理 当 前 DSI 异 浸 。 
3: 
mfspr rll,SPRN SPRG3 
lwz r11,PGDIR(r11) 
4: 
FIND_ PTE 


六 人 


这 段 程序 从 SPRG3 寄存 器 中 获得 当前 进程 描述 符 的 thread 参数 ,之 后 获得 当前 进程 的 
PGD 表 基 地 址 .随后 调用 FIND _ PTE 函数 ,获得 引发 DSI 异常 的 虚拟 地 址 所 对 应 的 PTE 
表 . FIND _ PTE 函数 的 详细 说 明 见 7.1.2 节 


andi. rl3, rll, _PAGE_ RW|_ PAGE_ USER| PAGE_ HWWRITE 
cmpwi 0, rl3， PAGE_ RW|_PAGE _ USER 
bne 2f A¥ Bailif not * / 


如 果 当 前 访问 的 地 址 属于 用 户 空 间 ，PAGE _RW 位 有 效 且 PAGE HWWRITE 位 不 
有 效 ,此 时 将 继续 处 理 , 否 则 跳 转 到 标签 2f, 由 data access 函数 修复 该 DSI 异 靖 ， 

_PAGE_ RW 位 和 _PAGE _ HWWRITE 位 的 详细 说 明 见 7.1.2 节 。 发 生 这 种 情况 的 主 
要 原因 是 用 户 改 变 了 进程 的 PTE 表 , 而 没有 与 TLB0 中 的 PTE 进行 同步 。DataStorage 函数 
的 主体 只 能 修复 这 种 类 型 的 DSI 异常 ,其 他 DSI 异常 事件 都 需要 DataStorage 函数 调用 标签 2f 
中 的 data _ access 图 数 进行 修复 ， 


orirll, rll, _ PAOE_DIRTY|_ PAGE ACCESSED| PAGE HWWRITE 
stw rll, PTE_ FLAGS_ OFFSET(r12) /* Update Linux page table */ 


mispr rl2, SPRN MAS3 
rwimi rl2, rll, 0, 20, 31 
mtspr SPRN MAS3,r12 
tlbwe 


这 段 函 数 将 _PAGE _ DIRTY 位 存放 到 页 表 中 ,同时 使 用 tlbwe 指令 同步 在 TLBO0 中 的 页 
表 Entry. 
mfspr rll, SPRN SPRG7R 
mtcr rll 
mfspr rl13, SPRN _ SPRGSR 
mfspr rl2, SPRN SPRG4R 
mispr rll, SPRN_SPRGI 
mfspr rl0, SPRN_ SPRGO 
ri /A¥* Force context change */ 


DataStorage 图 数 最 后 恢复 工作 现场 ,并 使 用 di 指令 结束 当前 异常 处 理 程序 。 
7.7.2 data access 国 数 
由 7.7.1 节 所 示 ,DataStorage 图 数 只 能 处 理 一 小 部 分 DSI 异常 事件 , 绝 大 多 数 的 DSI 异 


弟 事 件 需要 DataStorage 函数 调用 data _ access 国 数 进 行 处 理 。data ”access 函数 的 源 代码 如 
下 所 示 : 


data _ access: 
NORMAL EXCEPTION _ PROLOG 
mifspr IrS,SPRN _ESR /* Grab the ESR, save it, pass arg3 *./ 
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stw 15,_ ESR(r11) 
mfspr rd,SPRN DEAR /* Grab the DEAR, save it, pass arg2 */ 
andis. rl0,75,(ESR ILKIESR DLK)@h 
bne 1f 
EXC _XFER_EE_LITE(0x0300, handle_ page _ fault) 
1: 
addi r3,rl,STACK FRAME OVERHEAD 
EXC _ XFER __ EE _ LITE(0x0300, CacheLockingException) 


data _ access 函数 首先 使 用 宏 NORMAL EXCEPTION _ PROLOG ,确定 中 断 服务 程序 使 
用 的 堆栈 空间 ,同时 将 异常 处 理 程 序 中 使 用 的 通用 寄存 器 和 状态 寄存 器 压 人 中 断 堆 栈 空间 保 
存 。 宏 NORMAL _EXCEPTION _ PROLOG 的 详细 说 明 见 6.4.1 节 ， 

如 果 在 E500 内 核 中 ,ESR 寄存 器 的 ILK 或 者 DSK 位 为 1, 则 表示 由 Cache 操作 引发 DSI 
异 弟 。 此 时 data _ access 国 数 跳 转 到 标签 1f 处 ,调用 CacheLockingException 函数 处 理 相 应 的 
DSI 异常 事件 。 和 否则 将 使 用 宏 EXC XFER EE LITE 调用 handle page fault 国 数 ,处 理 
DSI 异常 事件 。 宏 EXC_ XFER _ EE _ LITE 的 详细 说 明 见 6.7.2 节 

CacheLockingException 函数 的 源 代码 见 /arch/powerpc/kernel/traps.c 文件 ,对 此 有 兴趣 
的 读者 可 自行 阅读 。 本 书 将 重点 介绍 handle _ page _ fault 国 数 。 

1. do _ page _ fault 函数 的 处 理 流程 

do _ page _ fault 函数 在 处 理 DSI 异常 事件 时 ,需要 对 引起 DSI 异常 事件 的 address 进行 检 
查 ,之 后 册 作 出 相应 的 处 理 。 其 处 理 流 程 如 图 7-17 所 示 。 

Address 和 参数 的 地 址 


是 否 在 当前 进程 的 
地 址 空间 中 






1 返回 SIGSEGV 
Kemel Bug 或 者 SIGBUS 
言 号 量 


图 7-17 do_ page _ fault 函数 的 处 理 流程 


如 上 图 所 示 ,do_ page _ fault 函数 处 理 DSI 异常 时 ,有 时 返回 SIGSEGV 或 者 SIGBUS 信 
号 量 。 一 般 来 说 ,SIGBUS(Bus error) 意 味 着 处 理 器 总 线 不 能 正常 访问 Address 地 址 处 的 内 存 ， 
通常 未 对 齐 的 数据 访问 或 者 硬件 错误 会 导致 这 类 情况 。 而 SIGSEGV (Segment fault) 意 味 着 
Address 地 址 是 无 效 地 址 ,没有 物理 内 存 与 该 地 址 对 应 ， 

在 Linux PowerPC 中 ,TLB Miss 异常 中 断 处 理 程序 有 时 也 会 跳 转 到 data _ access 函数 ,从 
而 执行 do _ page _ fault 图 数 。 此 时 ,do _page _fault 函数 将 会 处 理 TLB Miss 开销 ,并 可 能 为 
引发 TLB Miss 异常 的 虚拟 地 址 分 配 一 个 物理 页 面 。 

Linux PowerPC 的 进程 地 址 空间 在 创建 时 ,并 没有 被 加 载 到 物理 内 存 中 。 因 此 在 进程 的 
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运行 过 程 中 ,会 不 可 避免 地 发 生 当 前 进程 的 虚拟 地 址 空间 不 在 实际 的 物理 内 存 中 的 情况 , 即 当 
前 进程 的 pgd 表 的 pte 表 项 无 效 。 此 时 将 引发 DTLB Miss 或 ITLB Miss 异常 ,然后 跳 转 到 do 
_ page _ fault 处 理 上 图 数 中 。do__page _ fault 图 数 会 重新 分 配 一 个 物理 页 面 ,将 进程 地 址 空间 分 
段 加 载 。 这 种 内 存 加 载 的 方法 也 被 称 为 On-Demand 方法 ,采用 这 种 方法 的 优点 是 不 必 为 进程 
中 的 所 有 恕 拟 地 址 空间 预 留 物理 内 存 空 间 ,从 而 有 效 避 免 了 物理 内 存 的 浪费 。 

Linux PowerPC 还 使 用 了 与 时 拷贝 COW(Copy-on-Write) 技 术 。COW 技术 可 以 提高 进程 
的 创建 速度 及 对 物理 内 存 的 利用 效率 。Linux 较 早 的 版 本 设 有 使 用 COW 技术 ,进程 创建 时 ， 
于 进程 将 复制 父 进程 的 地 址 空间 ,这 将 极 大 降低 进程 创建 的 速度 ,同时 也 会 浪费 一 些 物理 内 存 
空间 。 

在 Linux PowerPC 中 ,COW 技术 的 实现 较为 简单 。 在 父 进程 创建 子 进 程 时 , Linux 使 用 
COW 技术 创建 子 进程 的 空间 ， 在 Linux 系统 中 , 子 进 程 创建 函数 do _ fork 将 调用 copy _ pro- 
cess 一 > copy _mm 一 >>dup _ mm 一 >dup mmap 一 >copy page range 一 > ... 一 >copy pte _ 
range 半数 建立 COW 页 面 。 该 函数 进一步 调用 copy _one _ pte 函数 实现 COW 页 面 。copy _ 
one _ pte 图 效 在 ./mm/memory.c 文件 中 ,其 中 与 COW 页 面相 关 的 代码 如 下 所 示 : 


pe 
* 于 itsaCOW mapping, write protect it both 
* in the parent and the child 
¥/ 
if (is_cow_ mapping(vm _ flags)) | 
ptep_ set_ wrprotect(sre_ mm, addr, src_ pte); 
pre = pte_ wrprotect(pte); 
| 
这 段 代 码 首 对 根据 vm _ flags 判断 , 父 进程 创建 子 进 程 时 ,是 否 希 要 使 用 COW 页 面 。 如 
采 击 要 , 则 将 父子 进程 的 pte 表 项 设置 为 只 读 。 此 时 父 进程 不 需要 为 子 进 程 创建 地 址 空间 ,而 
是 将 父 进程 的 pte 表 复 制 到 子 进程 中 。 此 后 当 父 进程 或 者 子 进程 对 各 自 的 进程 空间 进行 写 操 
作 时 ,将 产生 DTLB Miss 异常 ,并 由 DTLB Miss 异常 处 理 程序 (DataAcess 函数 ) 为 子 进程 生成 
-个 新 的 物理 页 面 。 
在 DataAcess 函数 中 ,需要 判断 在 进程 地 址 空间 中 的 数据 页 面 是 否 为 只 读 , 如 果 是 只 读 ， 
则 说 明 真 正 发 生 了 向 只 读 空间 进行 写 人 ,否则 认为 是 向 COW 页 面 进行 写 操作 ,此 时 将 为 
COW 页 面 重新 分 配 一 个 物理 页 面 ,分 离 父 于 进程 共用 的 物理 页 面 ,再 将 父子 进程 的 pte 表 项 
都 芭 置 为 可 读 写 。 采 用 COW 技术 可 以 有 效 提高 子 进 程 创 建 的 速度 和 Linux 内 存 管 理子 系统 
的 效率 。 
2. do _ page _ fault 函数 的 代码 分 析 
handle _ page _ fault 函数 的 源 代码 在 . /arch/powerpc/kernel/entry _ 32.S 文 件 中 ,该 函数 
再 用 do _ page _ fault 函数 处 理 DSI 异常 事件 ,do page _ fault 函数 在 . /arch/powerpc/mm/ 
fault.c 文件 中 。 


int _ kprobes do_ page _ fault(struct pt _ regs * regs, unsigned long address， 
unsigned long error _ code) 
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do _ page _ fault 国 数 一 其 有 三 个 参数 ,分别 为 regs,address 和 error _code- 
@ regs 参数 存放 PowerPC E500 内 核 的 寄存 器 ,handle _ page _fault 困 数 使 用 r3 寄存 表 传 
人 此 函数 ， 

@ address 参数 存放 DEAR 寄存 器 ,handle page _fault 函数 使 用 r4 寄存 器 传人 此 函数 。 

@ error _ code 参数 存放 ESR 寄存 器 ,handle page fault 函数 使 用 r5 寄存 器 传人 此 函数 。 

do _ page _ fault 函数 成 功 地 将 异常 恢 复 后 ,将 返回 0, 否则 将 返回 其 他 信和 号 量 ,表示 该 函数 
不 能 正确 恢复 此 DSI 异常 ,需要 使 用 信和 号 机 制 来 处 理 此 异常 。 

在 Linux PowerPC 中 ,do page _ fault 图 数 的 处 理 较 为 复杂 。 下 文 将 分 析 该 图 数 源 代 但 
的 主要 组 成 部 分 。 


”xx On a kernel SLB miss we can only check for a valid exception entry * / 
i (luser_ mode(regs) 及 及 (address >= TASK _ SIZE)) 
return SIGSEGYV,; 


在 IBM 的 某 些 64 位 PowerPC 处 理 硕 中 ,如 Power5 人 处 理 器 ,具有 SLB 寄存 需 (Segment 
Lookaside Buffer)。 如果 在 内 校 空间 的 数据 访问 发 生 了 SLB Miss 事件 ,将 最 终 进 入 DSI 异 带 
处 理 , 此 时 Linux PowerPC 直接 将 SIGSEGV 返回 。 在 E500 内核 中 没有 这 类 寄存 器 . 


if (in_ atomic()} || mm == NULL) | 
让 (Tuser mode(regs)) 


retum SIGOSEGCYV ; 
A in_ atomic() in user mode is really bad, 
as is cirrent- >mm 三 = NULL. */ 


printk( KERN _ EMERG Page fault in user mode with 
"in_ atomic() = Wdmm = %p\n, in_atomic(), mm); 
printk(KERN EMERG NIP = %lx MSR = %Ix\n, 
regs- > nip, regs- > msr); 
die( Weird page fault ，regs，SIGSEGV) ; 
| 


如 果 当 前 进程 的 mm _ struct 为 空 , 则 直接 将 SIGSEGV 返回 ,核心 进程 的 mm _struct 为 
空 。 如 果 当 前 进程 的 mm _ struct 为 空 , 且 当 前 进程 不 是 核心 进程 , 则 将 进入 die 函数 ,整个 
Linux 系统 将 被 挂 起 ,因为 用 户 进程 的 mm _ struct 参数 在 正常 情况 下 ,不 可 能 为 空 . 

读者 在 阅读 这 段 程序 的 时 候 需要 注意 ,DSI 异常 处 理 程序 主要 针对 用 户 进 程 访问 数据 时 
引起 的 DSI 异常 。Linux 系统 缺 省 认为 Linux 内 核 是 值得 信任 的 。 因 此 对 于 Linux 内 核 程 序 
产生 的 错误 ,Linux 系统 并 不 做 恢复 处 理 ,只 是 保存 错误 状态 并 将 系统 挂 起 ， 此 后 Linux 内 核 
开发 者 去 分 析 这 些 错误 信息 ,并 争取 尽快 改正 这 些 系 统 Bug。 


vma = find_ vma(mm, address); 
if (1 vma) 

goto bad area; 
if (vma->wm _ start <= address) 
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poto pood area; 
if (1 (vma->vm_ flags @ VM _ GROWSDOWN)) 
goto bad _ area; 


if (address + Ox100000 < vma->vm_ end) | 
A/¥ get user regs even if this fault is in kernel mode #*/ 
struct Pt regs * uregs = current- > thread. regs; 
if (uregs == NULL) 
goto bad area; 


if (address + 2048 < uregs->gpr[1|] 
履 有 (1user _ mode(regs) || | store_ updates _ sp(regs))) 
goto baq _ area; 
| 
if (expand _ stack(vma, address)) 
goto bad _ area; 
@ 天 得 address 参数 的 所 在 的 内 存 空间 段 vm _ area _ struct。 
@ 如 采 address 参数 小 于 当前 内 存 空间 段 的 起 始 地 址 , 即 当 前 地 址 不 是 合法 地 址 , 则 转移 
到 good area, 和 否则 继续 - 
e 检查 当前 的 内 存 空 间 段 是 否 可 以 向 前 增长 以 覆盖 address 参数 ,如 果 当 前 的 内 存 空 间 段 
可 以 同 醒 增长 , 则 继续 ,否则 跳 转 到 bad _ area。 
9 判断 当前 address 参数 所 指向 的 虚拟 地 址 后 是 否 有 1 MB 空间 ,以 便 扩 展 当前 进程 的 栈 
段 空间 。 如 末 可 以 扩展 , 则 继续 ,否则 跳 转 到 bad _ area。 
@ 使 用 expand stack 图 数 扩 展 进程 的 栈 段 ,如 果 该 国 数 返 回 不 成 功 则 跳 苇 到 bad _ area,， 
否则 跳 转 到 good _ area。 
这 段 函 数 的 流程 如 图 7-18 所 示 。 
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以 扩展 到 令 


近 内 存 空间 





楼 段 是 尾 
可 以 扩展 


图 7-18 ”do_ page _ fault 函数 处 理 流程 


3/0 


3. bad area 


bad _ area 程序 的 代码 如 下 所 示 : 


bad _ area: 
up_ read(&mm- >mmap_ sem); 


bad area_ nosemaphore: 
/7 # User mode accesses cause a SIGSEGY */ 
if (user _ mode(regs)) | 
_ exception( SIGSEGV, regs, code, address); 
return 0; 


| 


if (is_ exec 琉 有 琉 (error code 及 DSISR PROTFAULT) 
printk _ ratelimit( ) ) 
printk(KERN CRIT kernel tried to execute NX — protected 
” page (%lx) — exploit attempt? (uid: Wd \n’”, 
address, current- > uid); 


bad _ area 将 对 Page Fault 异常 处 理 函 数 的 错误 状态 进行 最 后 的 处 理 。bad ”area 这 段 程 
序 执行 完毕 后 ,可 能 发 生 以 下 几 种 情况 : 

(1) 调用 exception 函数 将 系统 挂 起 。 

(2) 返回 0.SIGSEGV,SIGKILL 或 者 SIGBUS。 

4. good area 

good _ area 这 段 程序 首先 对 address 地 址 进行 检查 。 这 里 主要 检查 该 地 址 的 pte 表 项 是 否 
合理 。 如 果 pte 表 项 不 合理 , 则 跳 转 到 bad area, 否则 执行 handle _ mm _ fault 孙 数 。 Linux 
PowerPC 认为 以 下 两 种 pte 表 项 是 合理 的 : 

(1) 当前 address 参数 指向 的 地 址 在 程序 空间 段 中 没有 对 应 的 pte 表 项 ,或 者 pte 表 项 没 
有 被 使 用 ,此 时 Page Fault 函数 认为 这 是 合理 情况 ,handle_mm _fault 函数 将 重新 为 此 地 址 申 
请 一 个 页 面 空间 

(2) 由 数据 写 操 作 进 入 Page Fault 异常 处 理 函 数 , 且 当 前 address 参数 所 在 数据 空间 段 可 
写 ,此 时 将 申请 新 的 物理 页 面 。 

以 上 这 两 种 合理 情况 是 按照 good _ area 程序 的 执行 流程 翻译 过 来 的 ,因此 读 起 来 有 些 质 
口 。 如果 将 这 两 种 情况 说 得 简单 些 ,就 是 在 这 些 情 况 下 ,do _page _ fault 函数 可 以 为 导致 该 异 
常 的 虚拟 地 址 申请 新 的 页 面 。 

Page Fault 异常 处 理 函 数 使 用 handle_ mm _ fault 函数 进一步 处 理 这 两 种 情况 .该 函数 的 
定义 在 .vincludevlinuxymm.h 文件 中 ,执行 流程 如 图 7-19 所 示 。 

handle _mm _ fault 函数 的 处 理 较为 复杂 。 其 执行 流程 如 下 所 示 。 

(1) 此 函数 首先 使 用 pre _ alloc _ map 分 配 一 个 pte 表 项 。 

(2) 然后 调用 handle _ pte _ fault 函数 ,使 用 Buddy System 进行 页 面 分 配 。 用 户 进程 所 使 
用 的 空间 没有 在 实际 的 物理 空间 中 时 ,如 该 进程 第 一 次 进行 数据 访问 时 ,将 使 用 do _ no _ page 
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函数 在 Buddy System 中 申请 一 个 物理 页 面 ; 当 用 户 进 程 所 使 用 的 空间 需要 与 SWAP 区 进行 交 
换 时 ,将 使 用 do _swap _ page 函数 ; 当 Linux 系统 处 理 COW 页 面 时 ,将 使 用 do _ wp _ page 图 


数 创建 新 的 物理 页 面 。 
set_current state 


图 7-19 handle_mm _ fault 函数 处 理 流 程 
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第 8 人 Linux PowerPC 的 初始 化 


在 x86 处 理 右 系统 和 PowerPC 处 理 器 中 ,Linux 系统 的 初始 化 过 程 非常 类 似 。Linux 系 
统 的 初始 化 是 一 个 复杂 的 过 程 ,Linux PowerPC 的 引导 一 般 要 分 为 以 下 三 大 步骤 : 

(1) 使 用 Boot Loader 程序 ,加 载 Linux PowerPC 的 内 核 文件 到 内 存 。 

(2) Linux PowerPC 的 子 系统 初始 化 。 

(3) 对 Linux PowerPC 的 应 用 程序 初始 化 。 

Linux PowerPC 使 用 U-Boot 或 者 Yaboot 作为 Boot Loader 程序 。Freescale 的 PowerPC 
处 理 硕 一 般 使 用 U-Boot, 加 载 Linux PowerPC 内 核 ,而 IBM 的 一 些 服务 器 主要 使 用 Yaboot 加 
载 Linux PowerPC 内 核 。 

采用 哪 种 Boot Loader 程序 并 不 重要 ,重要 的 是 Boot Loader 程序 与 Linux PowerPC 之 间 
如 何 进行 信息 传递 ,Boot Loader 程序 如 何 将 Linux PowerPC 的 内 核 文件 存放 到 内 存 中 。Lin- 
ux PowerPC 系统 的 初始 化 如 图 8-1 所 示 。 








| 加 载 Linux 内 核 创建 核心 进程 init 


图 8-1 Linux PowerPC 初始 化 流程 


Boot Loader 程序 负责 处 理 器 系统 的 基本 初始 化 ,并 收集 整个 处 理 硕 系统 的 资源 ,如 内 存 
大 小 处理 器 频率 、 外 设 的 使 用 情况 等 一 系列 信息 。 这 些 信息 由 Boot Loader 程序 传递 给 Linux 
内 核 ,随后 Boot Loader 程序 将 Linux PowerPC 内 核 复 制 到 物理 内 存 0 地 址 开始 的 物理 内 存 
中 。 基 于 E500 内 核 的 Linux PowerPC 需要 从 物理 地 址 0( 其 虚拟 地 址 为 0xC0000000) 开 始 执 
行 。 

如 有 果 用 户 因为 菜 些 需要 ,使 用 基于 E500 内 核 的 PowerPC 处 理 器 时 ,Boot Loader 程序 没有 
将 Linux PowerPC 内 核 复制 到 物理 地 址 0 中 ,程序 员 需 要 改动 Linux PowerPC 初始 化 部 分 的 
MMU 映射。 因为 基于 E500 内 核 的 Linux PowerPC 认为 Boot Loader 将 Linux PowerPC 的 人 
口 地 址 设 在 物理 内 存 0 ,并 在 此 处 开始 执行 。 

有 些 Linux 内 核 的 维护 者 希望 将 Boot Loader 程序 与 Linux PowerPC 内 核 完 全 分 离 ,以 便 
维护 这 两 段 代 码 。 但 是 目前 这 一 想法 还 没有 实现 。 将 Boot Loader 与 Linux PowerPC 内 核 有 
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机 联系 在 一 起 ,也 许 会 更 好 。 因 为 程序 员 很 难 清晰 界定 出 Boot Loader 程序 与 Linux 内 核 之 间 
的 界限 。 

在 Boot Loader 完成 对 Linux PowerPC 的 加 载 后 ,处 理 器 将 从 Boot Loader 跳 转 到 Linux 
内 核 中 执行 ,对 Linux PowerPC 进行 初始 化 。Linux PowerPC 的 初始 化 共 分 为 两 部 分 ,内 核 部 
分 的 初始 化 和 核心 进程 init 的 执行 。 

内 核 部 分 的 初始 化 将 Linux 的 子 系统 初始 化 完毕 后 ,创建 核心 进程 init。 此 后 ,核心 进程 
init 会 继 绥 执 行 。 此 时 调度 程序 已 经 初始 化 完毕 ,并 将 在 合适 的 时 机 执行 cpu _ idle 函数 ,cpu _ 
idle 函数 是 idle 进程 的 程序 体 。 在 处 理 器 没有 活跃 进程 时 ,Linux 系统 执行 idle 进程 。 在 Lin- 
ux 系统 中 ,该 进程 被 称 为 进程 0。 

核心 进程 init 完成 Linux PowerPC 的 各 项 配置 后 ,将 加 载 /sbinvinit 程序 初始 化 其 他 用 户 
进程 ,加 载 /sbinvinit 程序 所 产生 的 进程 被 称 为 进程 1 ,核心 进程 init 也 是 进程 1]。 只 是 在 核心 
进程 init 的 执行 后 期 ,其 进程 地 址 空间 被 更 换 为 加 载 /sbin/Ainit 程序 所 产生 的 进程 。 随 后 , 进 
程 1 根据 /etcvinittab 文件 创建 其 他 的 用 户 进程 。 一 般 来 说 ,进程 1 会 执行 login 进程 进行 登录 
操作 ,之 后 执行 Shell 进程 ,产生 Shell 界面 ,供用 户 与 Linux 系统 进行 交互 。 

本 章 主 要 介绍 Linux 子 系 统 的 初始 化 , 即 从 Boot Loader 加 载 内 核 到 执行 /sbinAinit 程序 
之 回 的 代码 。 这 些 代 码 共 分 为 两 大 部 分 组 成 ,第 一 部 分 从 Linux 系统 程序 入 口 地 址 _ start 开 
始 直 到 调用 start _ kernel 函数 ,本 书 将 此 部 分 代码 称 为 Linux 系统 的 一 次 引导 ;而 第 二 部 分 从 
start ”kernel 图 数 开 始 直 到 使 用 kernel thread 函数 创建 init 进程 ,本 书 将 此 部 分 代码 称 为 
Linux 系统 的 二 次 引导 。 

在 介绍 Linux 系统 的 一 次 ,二 次 引导 之 前 ,我 们 需要 首先 确定 Linux PowerPC 程序 人 口 地 
址 。 在 ./arch/powerpc/Makefile 文件 中 定义 了 以 head- 开 始 的 一 些 参 数 , 其 代码 如 下 所 示 : 


head-y := arch/powerpc/kernel/head 32.0 

head- $ (CONFIG _ PPC64) := arch/powerpc/kernel/head _ 64.o 

head- $ (CONFIG _ 8xx) := arch/powerpc/kernel/head 8xx.o 

head- $ (CONFIG _ 4xx) := arch/powerpc/kernel/head 4xx.o 

head- $ {CONFIG _ 44x) := arch/powerpc/kemel/head 44x.o 

head- $ (CONFIG _ FSL __ BOOKE) = arch/powerpc/kermnel/head fsl_ booke.o 
head- $ (CONFIG _ PPC64) += arch/powerpc/kernel/entry _ 64.0 

head- $ (CONFIG _ PPC _ FPU) += arch/powerpce/kemel/fpu.o 


苦于 E500 内 核 的 Linux PowerPC, 其 CONFIG FSL BOOKE=y, 其 他 配置 都 为 n, 因 此 
head-y 参数 等 于 arch/powerpc/kernel/head fsl booke.o。 由 此 可 见 基于 E500 内 核 的 Linux 
PowerPC 的 系统 引导 从 head _ fsl booke.S 文件 开始 。 


8.1 Open Firmware 


最 新 的 U-Boot 源 代码 支持 OF (Open Firmware) 结 构 , 但 是 基于 PowerPC E500 内 核 的 
Linux 2.6.20 源 代码 并 不 支持 OF 结构 。 其 他 的 PowerPC 处 理 器 ,如 604E 内 核 .603E 内 核 、 
E300 内 核 等 ,已 经 在 Linux 2.6.20 中 支持 了 OF 结构 。 因 此 本 书 将 对 Open Firmware 进行 简 
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单 的 介绍 ,目前 Linux 2.6.22 已 经 支持 ES500 内核 的 OF 结构 。 
Linux PowerPC 在 head _fsl _booke.S 文件 的 开始 处 ,将 Boot Loader 程序 传递 的 参数 保 


了 到] ,二 
r30,rd4 
r29,r3 
28,10 
7 
r24,0 +# CPU number */ 

在 上 述 代 码 中 ,通用 寄存 器 13,r4,r5,r6 和 177 被 保存 到 通用 寄存 器 r31,r30,r29,728 与 
r27 中 。 其 中 3 一 17 寄存 器 的 值 是 从 Boot Loader 程序 中 传递 过 来 的 。 如 果 当 前 Boot Loader 
不 支持 OF 结构 ,Boot Loader 程序 将 Linux 系统 复制 到 内 存 中 时 必须 将 以 下 数值 放 入 r3 一 要 
寄存 器 中 : 

e@ 通用 寄存 器 r3 存放 bd _ info 的 地 址 指针 .bd _ info 用 来 描述 当前 处 理 器 系统 的 硬件 信 

息 , 包 括 处 理 器 频率 ,物理 内 存 大 小 、 网 卡 的 地 址 等 一 系列 信息 

@ 通用 寄存 器 r4 存放 Init Ramdisk(initrd) 的 起 始 地 址 。 

@ 通用 寄存 器 15 存放 Init Ramdisk(initrd) 的 结束 地 址 。 

e@e 通用 寄存 器 r6 存放 内 核 的 命令 行 参 数 的 起 始 地 址 ， 使 用 U-Boot 作为 Boot Loader, 在 
引导 Linux PowerPC 内 核 时 ,会 将 bootargs 环境 变量 传递 给 Linux 系统 ,寄存 器 6 保存 
bootargs 环境 变量 的 起 始 地 址 。 

@ 通用 寄存 器 r7 存放 内 核 的 命令 行 参 数 的 起 始 地 址 。 

当 采 用 OF 结构 进行 Linux 系统 引导 时 ,通用 寄存 器 13 一 二 传递 的 数值 发 生 了 一 些 变化 ， 

如 表 8-1 所 示 。 


有 


表 8-1 U-Boot 传递 给 Linux PowerPC 的 参数 





Linux 内 核 中 的 参数 不 支持 OF 结构 支持 OF 结构 
通用 寄存 器 13 ”i _info 的 地 址 “| 指向 OF Tree 结构 的 物理 地 址 
通用 寄存 器 r4 initrd 的 起 始 地 址 | 指向 Linux 内 核 所 在 的 物理 地 址 | 
通用 寄存 器 15 initrd 的 结束 地 址 室 
”通用 寄存 器 命令 行 参数 起 始 地 址 ] 空 
通用 寄存 器 | 命令 行 参数 结束 地 址 。 | 空 


由 上 表 所 示 ,Boot Loader 支持 OF 结构 时 , 仅 使 用 通用 寄存 器 r3 和 r4 保存 OF 结构 的 信 
息 和 Linux 内 核 所 在 的 物理 地 址 。 在 E500 内 核 中 ,由 于 程序 不 能 直接 访问 物理 地 址 ,在 基于 
E500 内 核 的 Linux PowerPC 中 ,使 用 通用 寄存 器 r4 保存 Linux 内 核 所 在 的 有 效 地 址 。 由 上 
文 可 知 ,在 Linux PowerPC 初始 化 时 ,通用 寄存 器 13 指向 OF Tree 结构 的 物理 地 址 ,这 个 OF 
Tree 结构 也 被 称 作 dtb(Device Tree Block)。dtb 的 组 成 如 图 8-2 所 示 。 

Boot Loader 加 载 Linux 系统 时 ,dtb 被 放 人 指定 的 内 存 中 . 供 Linux 系统 在 引导 过 程 中 使 
用 .如果 Linux PowerPC 支持 OF 结构 , 则 调用 machine init 一 >early_ _ init _ devtree 函数 ,使 
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用 dtb 获得 当前 处 理 器 系统 的 硬件 信息 。 本 书 由 于 篇 幅 有 限 , 仅 对 Open Firmware 结构 的 基 
本 知识 作 简 要 介绍 ,有 关 该 结构 的 详细 知识 参见 . /Documentation/powerpc/booting-without- 
of .txt 文件 。 


devIice node 7 device node 
Ss 
device node 










Meimon reseme Map 


ialhenment gapu *) device node | 
和 
device tree Structure [~ “es 和 device node 
> i -一 __ | 本 = . 一 一 
| “~、| device node 





(alienment gapM*) 





device tree string 
[3-totalsize 一 一 一 一 | a 


图 8-2 Device Tree Block 的 组 成 


8.1.1 dtb 的 数据 结构 


dtb 由 boot _ param ”header, device tree 结构 和 device tree string 三 大 部 分 组 成 . 

1. boot _ param _ header 结构 

boot_ param ”header 结构 在 . /arch/powerpc/boot/flatdevtree.h 文件 中 定义 ,用 来 保存 
dtb 的 头 信 息 。 


struct boot _param header | 


U32 magic; /x¥ magic word OF DT HEADER */ 
1132 totalsize; ZX# total size of DT block */ 
132 off dt struct; /As# offset to structure * / 


ud2 off dt _ strings; A#* offset to strings ¥* / 
132 otf mem rsvmap; /* offset to memory reserve map */ 
Ud2 Versioni A/¥ format version */ 
U32 last comp_ version; /A/* last compatible version */ 
/# Version 2 fields below */ 
u32 boot cpuid phys; /* Physical CPU id we re booting on */ 
/# Version 3 fields below */ 
u32 dt strings size; A* size of the DT strings block * 7 
}; 
9 magic 参数 保存 OF 结构 的 标志 字 。Linux 系统 使 用 宏 OF _ DT _ HEADER 
(0xd00dfeed) 表 示 该 标志 字 。 
@ totalsize 参数 保存 dtb 的 大 小 . 
@ of dt _ struct 参数 记录 图 8-2 中 device tree 结构 在 dtb 中 的 偏 移 。 
@ off _ dt _ strings 参数 记录 图 8-2 中 device tree string 在 dtb 中 的 偏 移 。 
@ cff mem _ rsvmap 参数 记录 图 8-2 中 memory reserve map 在 dtb 中 的 偏 移 。Boot Loader 程 
序 引 导 Linux 系统 的 过 程 时 ,有 些 内 存 区 域 必 须 被 预 留 出 来 ,如 存放 dtb 的 内 存 区 域 ; 
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如 果 Linux 系统 支持 initrd, 还 需要 将 initrd 占用 的 内 存 区 域 预 留 出 来 。 在 Linux 系统 
初始 化 时 不 能 使 用 off mem _ rsvmap 参数 预 留 的 区 域 。 在 dtb 中 ,memory reserve map 
表 的 每 一 个 Entry 由 四 个 字 节 组 成 ,前 两 个 字 节 用 来 表示 所 预 留 空间 的 地 址 ,而 后 两 个 
字 节 用 来 表示 所 预 留 空间 的 大 小 。 
@ version 和 last ”comp version 参数 记录 dtb 的 版 本 号 。 
@ boot _cpuid ”phys 参数 在 Linux SMP 中 有 意义 。Linux SMP 将 有 CPU 分 为 BSP( Boot 
Stap Processor) 和 AP(Application Processor) 两 类 。 其 中 BSP 进行 Linux SMP 的 初始 化 
和 引导 其 他 AP,AP 用 作 Linux SMP 中 的 运算 CPU。boot _ cpuid _ phys 参数 表示 哪 一 
个 CPU 用 作 BSP: 
@ dt _ strings _ size 参数 记录 device tree string 表 的 大 小 。 
2. device _ tree 结构 
如 图 8-2 所 示 在 dtb 中 ,device _ tree 结构 由 device node 组 成 ,这 些 device node 又 可 以 由 多 
个 子 device node 组 成 。OF 使 用 device tree 结构 对 一 个 处 理 髓 系统 进行 换 述 。 -个 简单 的 
device _ tree 结构 如 下 所 示 。 


/A 0 device-tree 
|- name = "device-tree” 
|- model = “MyBoardName” 
|- compatible = “MyBoardFamilyName 
|- 间 address-cells = 二 2> 
|- #size-cells = <2> 
|- linux,phandle = <0> 


| 

oO cpus 

| -name = "cpus 

| | tinux,phandle = <1> 

| |- #address-cells = <1> 

| | 站 size-cells = <0> 

3 

| oo PowerPC,%m0(@0 

| 1- name = "PowerPC,970" 
| |- device_type = "cpu 

| |-reg = <0> 

| |- clock-frequency = Sf{Sel000~> 
| |- linux, boot-epu 

| |- linux, phandle = <2> 

| 

0 


memory(@0 

|- name = “memory 

|- device _ type = “memory 

|- reg = <00000000 00000000 00000000 20000000>> 
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以 上 device _ tree 结构 分 别 描述 处 理 器 系统 中 使 用 的 CPU 和 Memory, 该 device ree 包 
含 一 个 根 节 点 ,每 一 个 device _ tree 中 都 含有 唯 - -的 根 节点 /。 在 根 节点 /中 包含 一 个 cpus 和 
-个 memory 衣 点 。 而 cpus 节点 中 又 包含 一 个 子 节点 ,“PowerPC, 970@0” 节 点 。 
从 这 个 结构 中 可 以 发 现 ,该 处 理 器 系统 使 用 IBM 的 PowerPC 970 作为 主 处 理 器 ,其 系统 
频率 为 1600000000 Hz(0x5f5e1000)。Memory 的 大 小 为 512 MB ,起 始 地 址 为 0. 
下 文 将 以 cpus 节点 为 例 说 明 device node 在 内 存 中 的 存放 规则 。 
@ device node 使 用 宏 OF _DT_ BEGIN_ NODE ,其 值 为 0x0000 一 0001, 作 为 device node 
的 开始 标志 。 
9 存放 device _ node 的 节点 名 称 , 对 于 cpus 节点 ,该 值 为 “cpus" ;对 于 memory 节点 ,该 值 
为 “memory(@0" ,之 后 进行 4 字 节 对 界 。 
9 存放 节点 的 各 个 分 项 。 首 先 使 用 OF DT _ PROP 作为 开始 标志 ,然后 存放 节点 中 的 各 
个 分 项 。 对 于 cpus 节点 ,这 些 分 项 包括 "linux, phandle”, "Vaddress 一 cells”" 和 “ 划 size 一 
cells ,其 中 每 一 个 分 项 由 名 字 和 数值 两 部 分 组 成 “name" 分 项 不 在 device node 中 保 
存 . 而 是 保存 到 dtb 的 device tree string 表 中 ， 
@ 进行 4 字 记 对 界 。 
e 如 条 一 个 device node 具有 子 节点 , 则 按照 上 述 规则 将 子 节点 保存 。 在 cpus 节点 中 包含 
于 和 点 ”PowerPC，970@@0”。 
e@ device node 使 用 宏 OF _ DT_ END_ NODE 作为 节点 的 结束 标志 。 
Linux 系统 在 进行 初始 化 时 将 分 析 dtb, 然 后 将 dtb 中 的 device node 存放 到 device node 
知 构 中 ,device _ node 结构 的 源 代码 如 下 所 示 : 


struct device _ node | 
const char ¥ name: 
const char # type; 
phandlenode; 
phandle linux_ phandle; 
char * full_ name 


struct property * properties; 
struct property * deadprops; /* removed properties * / 
struct device_ node * parent; 
struct device_ node * child; 
struct device_ node * sibling; 
struct device_node # next; /¥ next device of same type */ 
struct device_ node * allnext; /* next in list of all nodes * / 
struct proc_dir_entry *pde; /* this node s proc directory % / 
struct kref kref; 
unsigned long _ flags; 
void * data; 
下 
Linux 系统 将 在 setup _arch ->unflatten _device _ tree 函数 中 扫描 dtb, 将 dtb 中 的 节点 信 
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县 复制 到 device _ node 结构 中 ,最 后 使 用 device _ node 一 >allnext 指针 将 所 有 device node 结 
构 组 成 一 个 单项 链表 ,并 使 用 allnodes 指针 保存 这 个 链表 头 指针 -unflatten _ device _ tree 函数 
在 ./arch/powerpc/kernel/prom.c 文件 中 。 

Linux 系统 还 定义 了 一 个 特殊 的 device _node, 即 of chosen,of chosen 描述 当前 处 理 器 
系统 dtb 中 的 chosen 节点 。chosen 节点 包含 Linux 系统 需要 的 环境 变量 .引导 参数 和 initrd 信 
县 。 在 Linux 系统 中 ,首先 使 用 early_ init dt _scan _chosen 函数 ,从 dtb 的 chosen 节点 中 获 
得 bootargs cmd _ line 等 Linux 系统 引导 参数 ,然后 调用 unflatten device _ tree 函数 将 chosen 
方 上 各 的 全 部 信息 保存 到 全 局 变量 of _ chosen 中 。 

3. dtb 的 生成 

由 上 文 可知 ,Linux 系统 引导 时 需要 dtb 文件 .但 是 dtb 文件 是 一 个 二 进 制 文件 ,不 便于 维 
护 。 为 此 Open Firware 提供 了 dtc(Device Tree Compile) 编 译 器 可 以 将 文本 文件 dts 转换 为 二 
进 制 文件 dtb, 每 一 个 处 理 器 系统 都 有 自己 的 dts 文件 。 

Linux PowerPC 在 . /arch/powerpc/boot/dts 目录 中 存放 了 许多 dts 文件 。MPC8541CDS 
板 的 dts 文件 为 mpc8541cds.drs。 

dtc 编 详 需 的 使 用 方法 如 下 所 示 : 


dte [-T < input-format> ] [-O <output-format> | 


L-o output-filename | [-V output _ version | input . filename 


input-format 可 以 使 用 以 下 三 个 参数 ， 

“dtb”"。 表 示 输 入 文件 为 dtb 文件 ， 

9S“dts"。 表 示 输 入 文件 为 dts 文件 . 

ee “fs”"。 表示 输 入 文件 与 /proc/device 一 tree 文件 的 格式 相同 。 

output-format 可 以 使 用 以 下 三 个 参数 ， 

e“dtb 。 表 示 输 出 文件 为 dtb 文件 。 

e“dts”。 表 示 输 出 文件 为 dts 文件 。 

es asm 。 表 示 输 出 文件 为 汇编 语言 文件 。 

如 果 output-format 为 “dtb" 时 ,output ”version 用 来 规定 生成 的 dtb 文件 的 版 本 号 ,目前 
dtb 文件 可 用 的 版 本 号 为 1,2,3 和 16,output-format 的 缺 省 值 为 3。input _ filename 和 output- 
filename 分 别 存放 输 入 和 输出 文件 名 。 从 dtc 编译 器 的 使 用 方法 中 发 现 ,dtc 编译 器 不 仅 可 以 
实现 dtc 文件 到 dtb 文件 的 转换 ,也 可 以 实现 dtb 文件 到 dtc 文件 的 转换 : 

8.1.2 ”Open Firmware 的 API 月 数 

OF 提供 了 许多 API ,查找 保存 在 全 局 链表 allnodes 中 的 device node。 这 些 API 函数 的 源 
代码 见 . /arch/powerpc/kernel/prom.c 文件 . 其 主要 API 如 下 所 示 : 

(1) of get_flat_ dt _ root 图 数 .该 图 数 用 来 查找 在 dtb 中 的 根 节点 。 

(2) of _ find_node_by_path 儿 数 . 该 函数 根据 device _ node 结构 的 full _name 参数 ,在 
全 局 链表 allnodes 中 ,查找 合适 的 device _node。 该 函数 的 使 用 方法 如 下 所 示 : 

struct device node * cpus; 
cpus = of _ find_node_ by_ path(” /cpus’ ); 
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(3) of _ find _ node _ by _ name 图 数 。 该 函数 的 使 用 方法 如 下 所 示 ， 


struct device _ node * np; 
np = of_ find_ node_by_ name(NULL, firewire ); 


如 果 of _ find _ node _ by _ name 函数 的 第 一 个 参数 为 NULL ,该 函数 根据 device _ node 结 
构 的 name 参数 ,在 全 局 链表 allnodes 中 查找 合适 的 device node。 
(4) of _ find _node_by __ type 图 数 。 该 图 数 的 使 用 方法 如 下 所 示 : 
struct device _ node * tsi pei; 
tsi_pci = of_ find_ node_ by _ type(NULL, "pci ); 


如 果 of _ find _ node_ by_ name 函数 的 第 一 个 参数 为 NULL ,该 函数 根据 device _ node 结 
构 的 type 参数 ,在 全 局 链表 allnodes 中 查找 合适 的 device _ node- 
(5) of _ find _ node _ by _ phandle 了 销 数 。 该 函数 根据 device _ node 结构 的 linux _ phandle 
参数 ,在 全 局 链表 allnodes 中 查找 合适 的 device ” node。 该 函数 的 使 用 方法 如 下 所 示 : 
struct device_ node * phy; 
phy = of _ find_node_ by_ phandle( * ph); 
上 述 这 些 函 数 根 据 device _ node 结构 的 相应 参数 ,寻找 到 合适 的 device node 之 后 ,可 以 使 
用 以 下 函数 寻找 device _ node 结构 中 相应 的 分 项 。 
(6) of _ find _ property 函数 。 该 函数 根据 property 结构 的 name 参数 ,在 指定 的 device 
node 中 查找 合适 的 property。 该 函数 的 使 用 方法 如 下 所 示 : 


struct device _ node # npi 

const char * name; 

int * Jenp; 

struct property * pp = of_ find_ property(np,name, lenp); 

(7) of _address _ to _ resource,of _get address 函数 。 这 两 个 函数 对 指定 的 device node 结 

移 进 一 步 分 解 , 以 获得 指定 的 分 项 。 这 两 个 函数 在 . /arch/powerpc/kernel/prom parse.c 文 
件 中 定义 。 在 该 文件 中 还 有 一 系列 用 来 分 解 pci 节点 和 pic 节点 的 一 些 专 用 函数 ,其 中 pei 节 
氮 与 PCI 总 线 的 配置 有 关 ,而 pic 节点 与 PIC 中 断 控制 器 有 关 。 


8.2 Linux PowerPC 的 一 次 引导 


Linux PowerPC 在 进入 start _ kernel 函数 ,进行 一 些 与 体系 结构 无 关 的 初始 化 之 前 ,需要 
做 一 些 必要 的 准备 工作 。 基 于 E500 内 核 的 处 理 器 由 于 MMU 的 设置 与 其 他 PowerPC 体系 结 
枸 有 很 大 的 不 同 ,因此 其 初始 化 过 程 也 不 尽 相 同 。 

基于 E500 内 核 的 PowerPC 处 理 器 ,MMU 无 法 关闭 。 因 此 Boot Loader 程序 必须 要 对 
MMU 进行 设置 ,然后 将 Linux 内 核 下 载 到 物理 内 存 0 处 开始 执行 。 由 于 Linux PowerPC 并 
不 知道 Boot Loader 程序 如 何 对 MMU 的 相应 TLB 进行 配置 ,因此 Linux PowerPC 需要 对 
MMU 进行 重新 初始 化 。 之 后 Linux PowerPC 将 对 中 断 向量 ,内存 系统 、 处理 器 系统 进行 最 基 
本 的 初始 化 。 其 执行 顺序 如 图 8-3 所 示 。 
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重新 初 始 化 MMIUI 


start kernel | 


图 8-3 Linux PowerPC 的 一 次 引 守 流程 


“中断 向 量 的 初始 化 


machine init 






8.2.1 ”MMU 的 重新 初始 化 


与 Linux PowerPC 的 MMU 管理 相关 的 代码 在 head _ fsl _ booke.S 文件 中 。 这 段 代 码 由 
Kumar Gala 编写 ,在 某 些 方面 仍然 有 些 不 足 。 也 许 在 不 远 的 将 来 会 有 人 重新 编写 这 段 代码 ， 
但 是 这 段 程 序 仍然 有 闪光 之 处 。 

Linux PowerPC 在 Linux 内 核 的 入 口 地 址 处 ,对 E500 内 核 的 MMU 重新 进行 配置 。 这 段 
代码 首先 清除 Boot Loader 程序 对 MMU 的 设置 ,之 后 重新 配置 MMU。 这 样 做 的 主要 目的 
是 , 尽 可 能 地 将 Boot Loader 程序 与 Linux PowerPC 的 代码 独立 ,以 便 对 各 目的 程序 进行 维护 . 
采用 这 种 方法 ,合理 清除 了 Boot Loader 程序 对 MMU 设置 。 这 段 代 码 共 有 以 下 几 个 执行 步 
又 :; 

(1) 首先 使 无 效 TLB1 中 的 所 有 Entry, 仅 保留 当前 程序 正在 使 用 的 Entry。 

(2) 在 TLB1 中 建立 一 个 临时 Entry, 然 后 让 当前 程序 跳 转 到 临时 Entry 的 空间 中 。 

(3) 清除 程序 最 开始 使 用 的 Entry-。 

(4) 将 TLBI 的 Entry0 初始 化 ,之 后 让 当前 程序 跳 转 到 Entry 0 的 空间 中 

(5) 最 后 清除 临时 Entry。 

MMU 重新 初始 化 的 源 代码 详解 如 下 : 


bl invstr /¥ Find our address * / 
investr: mflr 16 A¥ Make it accessible * / 
mfmsr r7 


rlwinm rd4,77,27,31,3] /* extract MSRIIS| */ 

mf{spr 17, SPRN PID 

slwi r7,r7,16 

or fF7,r7,r4 

mtspr SPRN MAS6,r7 

tlbsx 0 ,16 /x search MSRIIS], SPID=PIDO */ 


e Linux 内 核 进行 引导 时 ,并 不 知道 自己 在 哪个 地 址 处 执行 ,因此 需要 使 用 “bl" 指 令 获 得 
程序 的 运行 地 址 ,以 便 下 文 程序 使 用 此 地 址 进行 MMU 的 配置 。 随 后 将 此 地 址 保留 在 
通用 寄存 器 6 中 。“bl invstr "指令 首先 将 当前 指令 的 地 址 CIA(Current Instruction Ad- 
dress) 加 4, 并 将 此 结果 存放 到 LR 寄存 器 中 ,此 时 LR 寄存 器 中 将 保留 CIA+4 的 有 效 
地 址 。 

387 


9 之 后 使 用 PowerPC 著名 的 “rlwimn" 指令 ,其 主要 作用 是 将 MSR 寄存 器 中 的 IS 位 单独 
取出 ,并 放 到 通用 寄存 器 r4 的 63 位 中 。 具 体 地 说 ,该 指令 将 MSR 寄存 器 保存 在 通用 
寄存 器 rf7 中 。 将 r7 寄存 器 循环 左 移 27 位 ,然后 与 0xl 进行 与 操作 ,并 将 结果 存 人 通用 
寄存 器 r4 中 。 

e 将 当前 寄存 器 PID0 的 值 存 人 通用 寄存 器 17 中 ,之 后 将 其 左 移 16 位 后 与 通用 寄存 器 rd 
相 与 后 将 该 值 存 人 寄存 器 MAS6。 这 段 程序 之 所 以 需要 将 MSR 寄存 器 和 PID0 寄存 器 
进行 移 位 的 原因 是 MAS6 寄存 器 的 SPID0 域 在 第 40 一 47 位 ,而 SAS 域 在 第 63 位 。 

@ 使 用 tlbsx 指令 搜索 通用 寄存 器 r6 所 保存 有 效 地 址 所 在 TLB 的 Entry. 并 将 结果 存 人 
寄存 器 MAS0 一 3 中 。 

match _ TLB: 
mfspr r7,SPRN MASD 
rlwinm r3,.77,16.,20.31 fx# Extract MASO(Entry) */ 


mfspr 17,SPRN MASI A¥# Insure IPROT set */ 
oris r7,r7,MASI _ IPROT@h 

mtspr SPRN _ MASI,r?7 

tibwe 


这 段 代 码 使 用 tlbsx 指令 将 从 TLBI1 中 获得 的 Entry 保护 起 来 ,即将 MAS1 中 的 IPROT 
位 置 1。 此 后 , 当 用 户 使 用 tlbivax 指令 进行 TLB 使 无 效 操作 时 .不 能 将 TLBI1 中 的 这 个 Entry 


/¥ 2. Invalidate al entries except the entry we re executing in */ 
mfspr ,SPRN TLBICFG 


andi. ,19,0xf{f 
lm,0 A Set Entry counter to 0 */ 
1: lis 17,0x1000 /# Set MASO(TLBSEL) = 1 */ 


rlwimi r7,r6,16.4,15 /# Setup MASO = TLBSEL | ESEL(r6) */ 
mtspr SPRN MAS),r7 

tlbre 

mfspr 17,SPRN MASI 

rlwinm r7.r7,0,2,31 A#* Clear MASI Valid and IPROT */ 


cmpw r3,1 
beq skpinv /sx Dont update the current execution TLB */ 
mtspr SPRN MAS],r7 
tibwe 
isyne 
skpinv: addi r6 ,76, 1 /sx Increment */ 
cmpw r6 ,1 A/¥ Are we done? ¥/ 
bne 1b /¥ lfnot, repeat */ 
® 这 段 程序 从 E500 内 核 的 TLBICEFG 寄存 器 中 ,获得 TLB1 一 共有 多 少 个 Entry, 并 将 该 
值 存 人 通用 寄存 器 芭 。 
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9 这 段 程序 认为 Boot Loader 程序 使 用 了 TLB1 的 Entry0 描述 Linux 内 核 室 间 。 因 此 将 
通用 寄存 右 r6 的 值 赋 为 0。 这 种 做 法 无 可 厚 非 ,程序 员 编 程 时 ,总 是 要 基于 东 种 假设 ， 
很 难 做 到 将 所 有 情况 都 处 理 干净 ,只 是 我 而 望 在 程序 员 做 接口 程序 时 ,需要 对 使 用 的 这 
些 假设 条 件 进 行 检查 ,尤其 是 对 一 个 并 不 刻意 追求 效率 的 初始 化 程序 . 

9 之 后 检查 TLB1 的 Entry0 一 15。 除 了 当前 程序 使 用 的 Entry 0 之 外 ,以 上 程序 使 用 tlb- 
we 指令 将 TLBI1 其 他 的 Entry 中 的 V 位 和 [PROT 位 清 零 ,即使 无 效 其 他 Entry。 该 段 
代码 的 实现 较为 简单 ,此 处 不 再 叙述 。 


/+# 3. Setup a temp mapping and jump to 让 */ 
andi. 5, r3, Oxl /* Find an entry not used and is non ~ zero * / 
addi r5, +15, Oxl 
lis 17,0x1000 /¥ Set MASO(TLBSEL) = 1 */ 
rlwimi r7,73,16,4,15 /* Setup MAS0 = TLBSEL | ESEL(r3) */ 
mtspr SPRN MASOD,r7 
tibre 


e 将 寄存 器 r7 的 值 赋值 到 寄存 器 MAS0 中 。 之 前 通用 寄存 器 中 中 保存 了 当前 程序 正在 
使 用 的 Entry 号 ,然后 将 此 值 加 1 赋值 到 通用 寄存 阁 5 中 。 
@ 使 用 tlbre 指令 ,根据 寄存 器 MAS0 的 值 ,将 TLB1 的 相应 Entry 存 人 寄存 六 MAS1 一 3。 


7x# Just modify the entry ID and EPN for the temp mapping * / 

lis r7,0x1000 /¥ Set MASO(TLBSEL) = 1 */ 

rlwimi r7,r5,16,4,15 /x Setup MASO = TLBSEL | ESEL(rS) */ 
mtspr SPRN _ MASD,r7 

xori 6 ,r4,1 7/# Setup TMP mapping in the other Address space * / 
swir6,ro,12 

oris I6,16, (MASI _ VALIDIMASI _ IPROT)}@h 

or 16,16, (MASI _ TSIZE(BOOKE _ PAGESZ_ 4K))@I 

mtspr SPRN _ MAS] ,re 

mfspr r6,SPRN MAS 

lir7,0 /x¥ temp EPN = 0 ¥*/ 

rwimi 177,76,0,20,31 

mtspr SPRN MAS2,r7 

tbwe 


e 这 段 程序 在 TLB1 中 设置 一 个 临时 的 Entry。 将 寄存 器 MAS0 的 TLBSEL 字段 赋值 为 
1( 使 用 TLB1) ,将 ESEL 字段 设置 为 通用 寄存 器 15 中 的 数值 。 

e@ 将 寄存 器 MAS1 的 立 位 ,IPROT 位 和 TSIZE 字段 分 别 设置 为 1,1 和 4KB- 并 将 寄存 
器 MAS2 的 EPN 字段 设置 为 0. 

e 寄存 器 MAS0 一 MAS3 的 其 他 字段 使 用 上 一 段 程序 tlbre 指令 读 出 的 但 。 

e 提醒 读者 注意 ,这 段 程 序 仅 为 有 效 地 址 空间 0 一 4 KB 之 间 的 区 域 建 立 临 时 Entry 的 映 
射 。 如 果 用 户 为 Linux 内 核准 备 的 有 效 地 址 空间 不 是 以 0 开始 的 ,下 文 的 ffi 指令 有 可 
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能 会 执行 错误 ,可 能 会 跳 转 到 ITLB Miss 异常 处 理 程序 中 。 此 时 ITLB Miss 异常 处 理 
程序 还 没有 被 初始 化 ,因此 rfi 指令 还 可 能 跳 转 到 Program 异常 处 理 程序 中 。 这 段 代码 
最 致命 的 问题 是 ,假定 Boot Loader 引导 Linux 内 核 时 有 许多 前 提 条 件 , 但 是 并 没有 对 
这 些 条 件 进行 检查 。 

xori 中 ,由 ,] 


slwi r6,r6,5 /A setup new context with other address space # / 
bl 1f /A¥ Find our address * / 
1: mflr 19 
rlwimi r7,79,0,20,31 
addi r7,r7,24 
mtspr SPRN _ SRRO,r7 
mtspr SPRN SRRI1,6 
rfi 
A¥ 4. Clear out PIDs & Search info * / 
li 6,0 


9 使 用 bl 指令 获得 当前 CIA+ 4 的 有 效 地 址 ,然后 将 这 一 地 址 的 第 $2 一 63 位 保存 到 通用 
寄存 器 z7 中 ,然后 加 上 24, 即 6 条 指令 的 大 小 ,此 时 上 保存 的 地 址 为 1: +24, 即 指令 
r6,0" 所 在 的 有 效 地 址 。 此 时 使 用 rfi 指令 后 ,程序 将 跳 转 到 TLBI 临时 Entry 所 指向 的 
“1 6,0" 指 令 ， 

e 提醒 谈 痢 注意 ,使 用 zfi 指令 进行 程序 跳 转 的 好 处 是 ,程序 跳 转 后 将 自动 执行 isync 指 
令 , 以 保证 指令 空间 的 同步 ,在 Linux PowerPC 的 初始 化 阶段 ,使 用 ri 指令 进行 程序 跳 
转 比较 篆 见 。 这 里 的 ffi 指 令 与 中 断 返回 没有 任何 关系 。 

至 此 ,Linux 引导 程序 将 运行 在 临时 Entry 所 指定 的 空间 中 。 

mtspr SPRN _PID0 ,x6 
#ifndef CONFIG_ E200 

mtspr SPRN _ PID]1 ,6 

mtspr SPRN _ PID2 ,1 
#endif 

mtspr SPRN _ MAS6.,16 


这 段 程序 将 E500 内 核 的 寄存 器 PID0 一 2 及 寄存 器 MAS6 置 为 0。Linux PowerPC 没有 
使 用 E500 内 核 的 地 址 空间 1, 也 没有 使 用 PID 寄存 器 


A* $5. Invalidate mapping we started in */ 
lis 17,0x1000 /x# Set MASO(TLBSEL) = 1 #*/ 
rlwimi r7,73,16,4,15 /x Setup MAS0 = TLBSEL | ESEL(r3) * 7/ 
mtspr SPRN_ MASD ,7r7 
tlbre 
li r6,0 
mtspr SPRN _ MASI ,r6 
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thbwe 
A Invalidate TLB1 */ 
i 19,0x0e 
tibivax 0,r9 

# ifdef CONFIG _ SMP 
tibsync 

# endif 
msync 


这 段 代 码 将 最 初 存 放 Linux 内 核 的 TLB1 的 对 应 Entry 使 无 效 , 此 时 ,在 当前 系统 中 只 有 
TLBI1 的 临时 Entry 有 效 。 


/# 6. Setup KERNELBASE mapping in TLBI1[0| */ 

lis 6.0x1000 /*# Set MASO(TLBSEL) = TLBI(1), ESEL = 0 */ 

mtspr SPRN_ MAS0,16 

fs 6,(MASI _ VALIDIMASI _ IPFROT)@h 

ori ,76,(MASI _ TSIZE(BOOKE _ PAGESZ _ 16M))@!] 

mtspr SPRN_ MAS]I,re 

i 17,0 

ls 6,KERNELBASE@h 

ori 16,76,KERNELBASE@I 

riwimi re,r7,0.,20,31 

mtspr SPRN MAS2,r6 

li 17,(MAS3 SX|MAS3_ SW|MAS3_ SR) 

mtspr SPRN MAS3,r7 

tlbwe 
这 段 程序 初始 化 TLBI1 的 Entry0 ,此 时 MAS 寄存 器 的 各 个 字段 的 值 如 下 : 
@ TLBSEL 字段 为 01, 即 使 用 TLB1。 
@ ESEL 字段 为 0, 使 用 Entry 0. 
9 V 位 为 IPROT ,表示 将 使 能 并 保护 TLBI1 的 Entry0。 
9 TID 位 为 0, 表 示 使 用 全 局 PID 寄存 器 ,及 所 有 的 PID 寄存 器 进行 地 址 映射 。 
e@ TS 位 为 0, 表 示 所 描述 的 Entry0 将 使 用 E500 内 核 的 地 址 空间 0, Linux PowerPC 只 使 

用 E500 内 核 的 地 址 空间 0。 

@ TSIZE 位 为 BOOKE PAGESZ 16M, 即 16 MB。 
@ EPN 字段 为 KERNELBASE , 即 0xC0000000. 


@ WIMGE 位 都 为 0。 
e RPN 字段 为 0,SX、SW SR 位 为 1, 表 示 超 级 用 户 可 以 对 此 Entry 所 描述 的 空间 进行 读 
写 和 执行 操作 。 


@ 使 用 tlbwe 指令 将 KERNELBASE 一 KERNELBASE + 16M 这 段 的 有 效 地 址 空间 映射 到 
0 一 16 MB 物理 地 址 空间 中 。 至 此 Linux PowerPC 完成 了 对 TLB1 中 Entry 0 的 设置 ， 
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1x 7. Jump to KERNELBASE mapping * / 
lis r7,MSR KERNEL@h 
on 17,r7,MSR 上 KERNELOI 
bl 1f A/¥ Find our address ¥* / 
1: mflr 9 
rlwimi 6 ,79,0,20,31 
addi 16,16,24 
mtspr SPRN SRRO,m 
mtspr SPRN SRRI1,rY 


rfi /x start execution out of TLBI1[0] entry */ 
e 将 SRRO, SRR1 寄存 器 分 别 赋 为 MSR ”KERNEL, 和 当前 程序 段 fi 指令 的 下 一 条 指令 
的 有 效 地 址 。 


e 使 用 rfi 指令 进行 长 跳 转 。 此 后 指令 将 在 TLBI 的 Entry0 所 描述 的 地 址 空间 内 执行 。 


/sx 8. Clear out the temp mapping * / 
lis 17,0x1000 /x* Set MASO(TLBSEL) = 1 */ 
rwimi 77,r5,16,4,15 /* Setup MAS0O = TLBSEL | ESEL(rS) */ 
mtspr SPRN MASO,77 
tlbre 
mtspr SPRN _ MASI,r8 
tlbwe 
ZX Invalidate TLB1 #V 
li 19,0xQe 
tlbivax 0 ,719 
#ifdef CONFIG _ SMP 
tbsynec 
# endif 
msyne 
这 段 代码 使 无 效 TLBI1 的 临时 Entry。 至 此 ,Linux 系统 中 只 有 TLBI1 的 Entry0 所 描述 的 


空间 有 效 , 其 他 地 址 空间 都 没有 被 描述 。 采 用 这 种 方法 的 目的 是 清除 从 Boot Loader 程序 中 带 
来 的 对 TLB1 相应 Entry 的 一 些 设置 。 


8.2.2 中 断 问 量 的 初始 化 


E500 内 核 中 断 向 量 的 初始 化 , 即 对 E500 内 核 的 IVPR 和 IVOR 寄存 器 赋值 。Linux 
PowerPC 使 用 以 下 程序 初始 化 E500 内 核 的 中 断 问 量 ， 


SET _ IVOR(O0, CriticalInput):; 
SET _IVOR(1, MachineCheck): 
SET _ IVOR(2, DataStorage); 
SET _ IVOR(3, InstructionStorage); 
SET __ IVOR(4, Externallnput); 
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SET_ IVOR(S, Alignment); 
SET _ IVOR(6, Program):; 
SET_ TVOR(7, FloatingPointUnavailable); 
SET_ IVOR(S, SystemCall); 
SET_ IVOR(9, AuxillaryProcessorUnavailable); 
SET _ IVOR(10, Decrementer); 
SET_ IVOR(11, FixedInterval Timer); 
SET _ IVOR(12, WatchdogTimer); 
SET _ IVOR(13, DataTLBError); 
SET IVOR(14, InstructionTLBError); 
SET _ IVOR(153, Debug): 
SET _ IVOR(32, SPEUnavailable); 
SET __ IVOR(33, SPEFloatingPointData); 
SET_ IVOR(34, SPEFloatingPointRound); 
#ifndef CONFIG _ F200 
SET _ IVOR(35, PerformanceMonitor); 
# endif 
这 段 程 序 使 用 宏 SET _ IVOR ,将 中 断 向 量 处 理 函 数 的 地 址 存放 到 IVOR 寄存 器 中 ,比如 
将 CriticalInput 函数 的 地 址 存放 到 IVOR0 寄存 器 中 。 宏 SET _ IVOR 的 详细 说 明 见 6.1.3 
太 。 基 于 ES00 内 核 的 Linux PowerPC 需要 人 处理 的 中 断 与 异常 由 以 上 程序 所 示 。 本 书 中 对 一 
此 关键 的 中 断 与 异常 如 系统 时 钟 异常 .TLB Miss 异常 .外 部 中 断 处 理 和 DSI 异常 进行 了 详细 
介绍 ,其 余 的 异常 处 理 程序 需要 读者 自行 阅读 . 
7# Establish the interrupt vector base * / 
lis r4,interrupt _ base(@h /* IVPR only uses the high 16— bits */ 
mtspr SPRN _ [IVPR.r4 


以 上 程序 初始 化 IVPR 寄存 器 
8.2.3 彻 始 化 进程 0 


Linux PowrPC 在 完成 MMU 的 重新 初始 化 和 中 断 癌 量 的 初始 化 后 ,将 创建 进程 0, 并 由 
进程 0 完成 Linux PowerPC 的 一 次 引导 和 二 次 引导 。 
进程 0 的 运行 将 贯穿 Linux PowerPC 初始 化 过 程 。 进 程 0 开始 运行 前 ,Linux PowerPC 
市 要 为 其 创建 进程 描述 符 与 数据 栈 段 ,进程 0 使 用 的 正文 段 空 间 与 Linux 内 核 使 用 的 正文 段 
空间 相同 。 
/7# ptr to current */ 
lis r2,init _ task@h 
or 72,72,init task(@]! 
init _ task 是 进程 0 使 用 的 进程 描述 符 , 也 是 Linux 系统 中 第 一 个 进程 描述 符 。 该 进程 描 
述 符 的 定义 在 . /arch/powerpc/kernel/init _ task.c 文件 中 ， 
init _ task 描述 符 使 用 宏 INIT TASK 在 编译 Linux 系统 时 ,对 init task 进程 描述 符 进 
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行 竟 态 赋值 . 宏 INIT_TASK 的 定义 在 .vincludevlinuxvinit _ task.h 文件 中 。 读 者 可 以 参考 
本 书 5.1 刷 ,分 析 init _task 进程 描述 符 的 初始 化 属性 。 

随后 这 段 代 码 将 进程 描述 符 init _task 赋 给 通用 寄存 器 之 ,由 上 文 所 示 ,通用 寄存 器 它 保 
存 当 前 正在 运行 的 进程 描述 符 。 在 Linux 系统 进行 初始 化 时 ,当前 运行 的 进程 是 进程 0, 此 时 
Linux 系统 使 用 通用 寄存 器 尼 保存 init _ task 的 地 址 . 


/tx# ptr to current thread ¥/ 
addi r4,r2,THREAD 7 # init task s THREAD */ 
mtspr SPRN _ SPRG3,r4 


这 上 段 代码 使 用 的 宏 THREAD 与 offsetof(struct task struct，thread) 等 效 , 即 保存 进程 描 
述 符 task struct 一 之 thread 参数 在 当前 task _ struct 结构 中 的 偏 移 。 

这 段 代码 的 主要 目的 是 将 专用 寄存 器 SPRG3 赋值 为 ?2 一 > thread, 即 使 用 SPRG3 寄存 器 
保存 当前 进程 描述 符 thread 参数 的 地 址 。 针 对 不 同 的 PowerPC 处 理 器 ,Linux PowerPC 对 专 
用 寄存 器 SPRG3 的 使 用 并 不 相同 。 基 于 ES00 内 核 的 PowerPC 处 理 器 使 用 寄存 器 SPRG3 保 
存世 ->thread 的 有 效 地 址 ,而 基于 603E,604E 和 E300 内 核 的 PowerPC 处 理 器 使 用 寄存 器 
SPR3 保存 刀 ->thread 的 物理 地 址 。 

寄存 器 SPRG3 是 Linux PowerPC 为 基于 603E .604E 和 E300 等 PowerPC 内 核 设置 的 。 
这 一 类 处 理 器 进 人 中 断 或 者 异常 处 理 程序 时 ,MMTU 会 被 自动 关闭 ,此 时 Linux PowerPC 必须 
宇 用 SPRG3 寄存 天才 能 找到 当前 的 进程 描述 符 ; 基 于 E500 内 核 的 PowerPC 处 理 器 在 进入 中 
断 或 者 异常 处 理 模式 时 并 不 关闭 MMU ,因此 不 需要 在 SPRG3 寄存 器 中 保存 刀 一 >thread 的 
槐 理 地 址 也 可 以 找到 当前 进程 的 描述 符 。 但 是 基于 E500 内 核 的 Linux PowerPC 依然 使 用 
SPRG3 寄存 器 保存 芝 一 >thread 的 有 效 地 址 以 便 和 其 他 体系 的 Linux PowerPC 兼容 。 

进程 0 使 用 变量 init _ thread _ union 中 的 空间 作为 该 进程 的 堆栈 空间 ,同时 该 进程 的 
thread _info 参数 也 使 用 此 空间 。 与 init _ thread union 变量 有 关 的 源 代码 如 下 所 示 : 

A .Varch/powerpe/kernel/init task.c */ 
union thread union init thread _ ynion 
attribute_{((_ section _( .datainit _ task ))) = 
| INIT _ THREAD _ INFO(init _ task) |; 


/A ./include/asm— powerpe/thread in{fo.h */ 
#define init _ thread _ info (init _ thread _ union. thread _ info) 
# define init _ stack (init thread _ union. stack) 


Z# .A/inclode/linux/sched.h */ 
union thread _ union | 

struct thread _ info thread _ info; 

unsigned long stack| THREAD _ SIZE/sizeof(long) |; 
二 


读者 可 以 由 以 上 代码 发 现 , 变量 init _ thread _ union 在 ./arch/powerpc/kernel/init _ 
task.c 文件 中 定义 ,并 放 人 .data.init _task 段 中 ,init thread union 是 thread _union 联合 结 
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构 的 变量 . 在 thread _ union 结构 中 包含 两 个 参数 thread info 和 stack, 其 中 thread info 和 
stack 参数 共享 一 段 8 KB 的 空间 

Linux 系统 在 . /include/asm 一 powerpc/thread _info.h 文件 中 定义 了 两 个 宏 ,init _ thread 
_ info 和 init _ stack ,分 别 用 来 访问 进程 0 的 thread _ info 参数 和 堆栈 . 


A¥ stack */ 
lis rl ,init _ thread _ union@®@h 
crirl,rl,init _ threadq _ union(®] 
B10,0 
stwu 0, THREAD SIZE-STACE FRAME OVERHEAD(r]) 
这 段 程序 为 进程 0 建立 堆栈 空间 。 基 于 E500 内 核 的 Linux PowerPC, THREAD _ SIZE 
的 值 为 8 KB,STACK_ FRAME_ OVERHEAD 的 值 为 一 个 栈 帧 的 最 小 值 16。 该 程序 首先 使 
用 stwu 指令 将 0 存放 到 前 一 个 栈 巾 的 底部 ,然后 将 通用 寄存 器 rl 指向 当前 栈 帧 的 底部 ,以 确 
定 init _ task 的 堆栈 结构 。 这 有 段 程序 执行 完毕 后 ,init _ task 进程 的 进程 描述 符 ,正文 段 ,数据 
段 和 堆栈 段 建立 完毕 ,该 进程 程序 运行 空间 已 经 基本 建立 完毕 . 
之 后 ,初始 化 进程 init _ task 将 依次 调用 early _ init 国 数 .machine _ init 函数 MMU _ init 
遇 数 和 start _ kernel 图 数 ,完成 Linux PowerPC 的 初始 化 


8.2.4 early init 函数 


bl early _ init 


early _init 图 数 的 主要 功能 是 判断 当前 处 理 器 系统 使 用 的 内 核 类 型 ,并 作出 相应 的 初始 化 
操作 。early _ init 图 数 在 , /arch/powerpc/kernel/setup 32.c 文件 中 定义 ,其 源 代码 详解 如 
本 

AZx early _ init 函数 源 代码 片段 1 */ 
__ init 

unsigned long 

early _ init(int r3, int r4. int r5) 

| 

early _ init 函数 共有 三 个 输入 参数 和 一 个 返回 值 。 其 中 这 些 输 入 参数 分 别 保 存在 通用 寄 
存 器 r3,r4 和 75 中 ,基于 E500 内 核 的 Linux PowerPC 在 early _ init 函数 中 ,没有 使 用 这 些 输 
人 参数 。early _ init 函数 的 返回 值 为 Linux 内 核 运 行 的 物理 地 址 ,该 函数 的 返回 值 对 于 基于 
E500 内 核 的 Linux PowerPC 没有 意义 。 

A# early _ init 国 数 源 代 人 码 片段 2 x / 
unsigned long phys; 
unsigned long offset = reloc _ offset( ); 
struct cpu _ spec * spec; 


VX Default */ 
phys = offset + KERNELBASE; 
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这 段 函 数 使 用 reloc _ offset 函数 ,计算 Linux 内 核 的 连接 地 址 和 Linux 内 核实 际 运行 地 址 
之 则 的 偏 移 ,随后 将 这 个 偏 移 和 KERNELBASE 相 加 后 赋 给 变量 phys。early _ init 函数 执行 
结束 后 将 phys 变量 返回 。 
变量 spec 是 cpu _ spec 类 型 的 参数 ,cpu_ spec 类 型 在 . vincludeyasm - powerpc/cputable.h 
中 定义 ，。 该 类 型 的 主要 数据 成 员 如 下 : 
9 pvr _ value 参数 存放 CPU 内 核 版 本 号 . 
和 icache _ bsize, dcache _ bsize 参数 存放 CPU 的 指令 和 数据 Cache 行 长 度 
@ cpu _ setup 参数 指向 一 个 初始 化 函数 ,该 图 数 可 以 被 early _ init 孙 数 调用 ,用 户 可 以 将 
一 些 和 而 要 在 Linux 系统 启动 的 最 初 阶 段 执行 的 代码 放 人 此 函数 中 。 目前 基于 E500 内 
核 的 Linux PowerPC 都 没有 使 用 这 个 参数 

9 cpu_name 参数 保存 当前 处 理 器 内 核 的 名 称 . 如 MPC8541 处 理 器 的 cpu _name 参数 为 
“"eS00 ， 

9 platform 参数 保存 当前 系统 使 用 处 理 器 的 名 称 , 如 MPC8541 处 理 器 的 platform 参数 为 
“ppc8340 ， 在 Linux PowerPC 中 , MPC8541/8555/8540/8560 的 platform 参数 都 为 
“ppe8540”. 


/# early _ init 函数 源 代码 片段 3 */ 
A¥ First zero the BSS -- use memset _ io, some platforms don t have caches on vet ¥* / 
memset iol(void __ iomem * )PTRRELOC(& bss start), 0, end - _ bss start); 


这 段 程序 使 用 memset _ io 函数 将 Linux 内 核 的 bss 段 清 零 ,bss 段 存放 未 初始 化 的 全 局 变 
量 . 这 段 程 序 使 用 函数 memset _ io 将 以 PTRRELOC(& bss_ start) 开 始 的 数据 段 清 零 ,这 
段 数 据 段 的 大 小 为 end-_ bss start。 bss start，end 及 bss _ start 变量 来 自 vinlin- 
ux.lds 文件 ,Linux 内 核 编译 完成 后 这 些 变量 将 被 初始 化 

在 Linux 内 核 运 行 时 .不 能 够 直接 使 用 这 些 编译 值 ,因为 Boot Loader 不 一 定 将 Linux 内 
核 映像 根据 其 编译 地 址 存放 到 内 存 中 ,因此 Linux 系统 需要 使 用 宏 PTRRELOC ,将 程序 的 编 
详 地 址 转换 为 实际 的 有 效 地 址 。 宏 PTRRELOC 调用 函数 add _ reloc _ offset, 计 算 编译 地 址 与 
实际 的 有 效 地 址 的 差 值 ,此 函数 的 源 代码 在 . /arch/powerpc/kernel/misc.S 文件 中 。 这 段 代 码 
如 下 所 示 : 


_ GLOBAL(add _ reloc _ offset) 
mflr 10 
bl 1f 
1: mflr 15 
LOAD REG _ IMMEDIATE(r4, 1b) 
subf rS,r4,r5 
add r3,r3,r5 
mtlr r0 
blr 


9 这 上段 程序 首先 将 LR 寄存 器 保留 在 通用 寄存 器 m 中 。 之 后 使 用 "bl 1f" 指 令 获 得 LR 寄 
存 器 的 值 , 即 *1: mflr r5”" 指 令 的 有 效 地 址 。 
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9 将 该 指令 的 有 效 地 址 存放 在 通用 寄存 器 r5 中 。 

9 使 用 宏 LOAD_ REG _ IMMEDIATE 计算 “1b", 即 “1: mflr rs "指令 的 编译 地 址 ,并 将 其 
结果 仔 人 通用 寄存 器 r4 中。 

e 将 通用 寄存 器 r4 减 七 的 值 赋予 通用 寄存 器 号 。 此 后 .通用 寄存 器 r5 存放 Linux 内 核 
锌 Boot Loader 加 载 后 的 有 效 地 址 减 去 其 编译 地 址 的 差 值 , 即 有 效 地 址 与 编译 地 址 之 间 
的 偏 移 

9 将 通用 寄存 器 r3 加 上 x5 的 值 ,并 赋 给 r3, 完 成 编 详 地 址 到 有 效 地 址 的 转换 ， 最 后 将 保 
存在 通用 寄存 器 上 中 的 LR 寄存 器 还 原 ,然后 使 用 blr 指令 进行 程序 返回 . 

early _ init 国 数 将 bss 段 初 始 化 完毕 后 ,将 使 用 以 下 代码 获得 当前 处 理 器 的 类 型 。 

A/# early _init 国 数 源 代码 片段 4 * / 
其 
x Tdentify the CPU type and fix up code sections 
* that depend on which cpu we have. 
A 
spec = identify_ cpu(offset, mf{spr(SPRN _ PVR)); 


Linux PowerPC 将 所 有 PowerPC 处 理 吕 系统 的 cpu _ spec 结构 统一 存放 到 全 局 数组 cpu _ 
specs 中 。Linux PowerPC 初始 化 时 .early _ init 函数 根据 当前 处 理 器 的 PVR 寄存 器 扫描 全 局 
数组 cpu _specs, 以 获得 当前 处 理 器 系统 使 用 的 cpu _spec 结构 。 

PVR 寄存 器 用 来 识别 处 理 器 系统 使 用 的 PowerPC 内 核 , 如 MPC8541 处 理 器 使 用 E500 
内 核 ,MPC8548 使 用 E500 V2 内 核 ,而 MPC8272 使 用 603E 内 核 。 对 于 MPC85XX 系列 的 处 
理 需 ,其 cpu _ spec 参数 初始 化 如 下 所 示 : 


1 /x 6500 */ 
.pyr_mask = 0xffff0000, 
.pvr_value = 0x80200000， 
.Chu _ name = “e500', 
/+#+ XXX 一 galak: add CPU FTIR MAYBE CAN DOZE */ 
.cpu_ featires = CPU FTRS ES00, 
.Cpu_ user_ features = COMMON _USER _ BOOKE | 
PPC_ FEATURE _ SPE_ COMP | 
PPC FEATURE HAS EFP_ SINGLE, 
.icache _bsize = 32， 


.dcache _ bsize = 了 2， 
.num _ pmes = 4， 
.oprofile_cpu_ type = “ppc/eS00", 


.oprofile_type = PPC _ OPROFILE_ BOOKE. 
.platform ”三 “PPc85S40 ， 


identify _ cpu 消 数 根据 PVR 寄存 占 . 获 得 当前 处 理 融 系统 的 cpu _ spec 参数， 基于 E500 
V1 内 核 的 处 理 器 ,其 PVR 寄存 器 为 0x8020xxxx, 该 值 与 存放 在 cpu _ specs 数组 的 e500 内 核 
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使 用 的 cpu _ spec 一 之 prv _ value 参数 相同 ,因此 identify _ cpu 函数 返回 时 将 获得 此 cpu _ spec。 
early _ init 图 数 执行 identify _ cpu 函数 后 将 调用 do _ feature _ fixups 函数 


/A# early _ init 函数 源 代码 片段 5 */ 
do_ feature _ fixups(spec- > cpu _. features, 
PTRRELOC(& _ start __ ftr_ fixup), 
PTRRELOC(& stop__ ftr_fixup)); 


returm KERNELBASE + offset; 
| A/¥ End early_ init */ 


do feature fixups 函数 的 源 代码 在 . /arch/powerpc/kernel/cputable.c 文件 中 ,该 国 数 使 
用 了 一 个 小 技巧 ,以 实现 代码 复 用 

不 同 的 PowerPC 处 理 器 具有 不 同 的 特性 ,如 指令 Cache 和 数据 Cache 的 大 小 不 同 ;指令 集 
并 不 完全 相同 (有 些 指 令 在 E500 中 存在 而 在 603E 内 核 中 不 存在 , 如 指令 wrtee); 不 同 的 
MMU 管理 策略 ;不 同 的 电源 管理 方法 等 等 。 虽然 这 些 PowerPC 处 理 右 之 间 有 许多 差异 ,但 
十 这 些 处 理 剖 之 间 还 是 有 非常 多 的 共性 。 因 此 如 果 专 门 为 这 些 PowerPC 处 理 恬 提供 不 同 的 
捍 文 件 显得 过 于 元 余 。 为 此 ,Linux PowerPC 处 理 与 PowerPC 处 理 占 特性 有 关 的 代码 时 ,使 用 
志 BEGIN_FTR_SECTION 和 END_FTR_ SECTION _IFSET 将 这 些 代码 放 入 Linux 内 核 
的 单独 的 一 个 段 _ ftr _ fixup 中 。 如 下 所 示 : 


BEGIN _ FTR _ SECTION 
LOAD BAT(4,r3,r4,r5) 
LOAD BAT(S,r3,r4,15) 
LOAD BAT(6,13,r4,r15) 
LOAD BAT(7,r3,r4,.75) 
END_FTR SECTION _IFSET(CPU _ FTR_ HAS_ HIGH_ BATS) 


首先 宏 BEGIN_ FTR_ SECTION 和 END_FTR_ SECTION _ IFSET 之 间 的 源 代码 将 
饭 链 接任 放 人 到 Linux PowerPC 内 核 的 _ ftr _ fixup 段 中 。identify _ cpu 函数 确定 CPU 的 
cpu _ spec 参数 之 后 ,根据 cpu _ spec 一 cpu_ user _ features 参数 .调用 do feature _fixups 函数 
对 ftr _ fixup 段 进行 修 复 . 

@ 如 果 一 个 CPU 具有 某 特性 , 则 操作 该 特性 的 代码 将 不 作 任 何 处 理 , 如 在 上 述 程序 中 ,如 
果 当 前 处 理 器 的 CPU 具有 CPU_ FTR_ HAS_HIGH _ BATS 特性 ,do_ feature _ fix- 
ups 尔 数 将 不 会 对 存放 这 段 程 序 的 _ ftr _ fixup 段 进 行 改写 。 

@ 如果 CPU 不 具备 该 特性 , 则 使 用 do _ feature _ fixups 函数 将 操作 该 特性 的 代码 全 部 替 
换 成 nop 指令 。do _ feature _ fixups 函数 有 一 个 立即 数 “0x60000000u" ,该 立即 数 与 nop 
指令 机 器 码 相 同 。 在 E500 内 核 中 ,nop 指令 等 效 于 “ori 0, 0, 0" 指 令 . 

提 柄 读者 注意 ,在 PowerPC 处 理 硕 中 ,如 果 程 序 员 对 指令 所 在 的 内 存 进行 修改 后 ,必须 清 

除 指令 和 数据 Cache 中 的 对 应 Cache 行 ,否则 很 可 能 造成 指令 .数据 Cache 及 存储 器 内 容 不 一 
致 ,从 而 寻 致 错误 。 在 PowerPC 中 ,更 改 指令 段 的 代码 被 称 为 Self 一 Modify 代码 。 程序 员 在 
编写 这 类 的 代码 时 震 要 十 分 谨慎 ,在 这 类 代码 后 ,需要 使 用 指令 同步 和 存储 同步 指令 。 本 书 不 
会 对 do _ feature _fixups 图 数 进行 逐 行 分 析 , 但 是 希望 读者 能 够 准确 理解 该 函数 的 含义 。 
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8.2.5 machine init 鸭 数 


mfspr 已 ,SPRN _ TLBICFG 

andi. r3,r3,0xfff 

lis r4,num _ tlbcam _ entries@ ha 

stw Ir3,num_ tlbcam _ entries(@l(r4) 


A#* Decide what sort of machine this is and initialize the MMU. */ 
mr 13,r31 
mr rd4,r30 
mr r5,r29 
mr ,28 
mr Ir7;727 
bl machine _ init 
Linux PowerPC 从 early _init 孙 数 返回 后 ,将 从 TLBICFG 寄 仓 器 中 ,获得 当前 E500 内 核 
的 TLB1 有 和 多少 个 Entry, 然 后 将 该 结果 存 人 全 局 变量 num _ tlbcam _ entries 中 ,之 后 调用 ma- 
chine _init 函数 。，machine _ init 国 数 在 . /arch/powerpc/kernel/setup _ 32.c 文件 中 ,machine 
init 函数 的 主要 功能 有 两 个 。 
(1) 分 析 OF Tree 结构 ,获得 当前 处 理 器 的 内 存 使 用 情况 ,创建 LMB 结构 ,同时 获得 当前 
处 理 器 系统 在 OF Tree 结构 中 的 其 他 硬件 信息 ,如 CPU 的 频率 .内 部 寄存 器 基地 址 .中 断 系 统 
等 
(2) 确定 当前 处 理 需 系统 的 ppc _ md 结构 ,ppc _ md 结构 确定 当前 Linux PowerPC 的 一 
系列 钧 子 清 数 , 设 置 ppc _ md 函数 的 主要 目的 是 为 了 进一步 优化 Linux PowerPC 系统 源 代码 
的 结构 。 
machine _init 函数 分 别 使 用 early _ init _ dev _ tree 函数 和 probe _machine 图 数 ,实现 以 上 
两 种 功能 ”machine _ init 图 数 有 两 个 输入 参数 dt _ ptr 和 phys, 其 中 dt _ ptr 指向 dtb 的 物理 
地 址 ,而 phy 指向 Linux 内 核 所 在 的 物理 地 址 。 本 书 编写 时 , E500 内核 还 不 支持 OF 结构 。 
因此 本 章 涉及 的 许多 源 代码 与 E500 内 核 无 关 。 


void _ init machine _ init(unsigned long dt _ ptr, unsigned long phys) 
| 
early init_ devtree( _ valdt_ ptr)):; 


probe_ machine( ); 


| 


1. early init dev tree 函数 
early init dev _ tree 函数 在 . /arch/powerpc/kernel/prom.c 文件 中 ,该 函数 有 一 个 输入 
参数 params, 其 值 由 machine _ init 函数 传人 ,用 来 存放 OF Tree 的 有 效 地 址 ,该 函数 没有 返回 
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void init early init_ devtree(void * params) 

| 
of scan_flat_ dt(early_init_dt_ scan_ chosen, NULL):; 
lmb _ init():; 


of scan flat_ dt(early init_dt_ scan root, NULL); 
of scan flat_ dt(early init_dt_ scan_ memory, NULL); 


early _ init _ devtree 函数 首先 调用 of _scan _flat _dt 函数 对 dtb 的 chosen 节点 进行 分 析 。 
有 天 chosen 克 点 的 说 明 见 本 书 的 8.1.1 节 -之 后 该 函数 将 根据 dtb 中 的 信息 创建 LMB 结构 ， 
本 书 不 对 LMB 结构 进行 说 明 。LMB 结构 是 AIX 系统 管理 eSeries 和 pSeries 服务 器 内 存 的 一 
种 策略 ,这 一 策略 用 于 单 处理 器 系统 显得 有 些 复杂 
A/¥ Save command line for /proc/cmdline and then parse parameters * / 
stricpy(saved _ command _ line, cmd line, COMMAND LINE SIZE); 
parse _ early _ param( ); 


随后 将 Boot Loader 引导 Linux 内 核 时 使 用 的 命令 行 参数 存放 到 saved _ command _ line 变 
量 中 ,并 使 用 parse _ early _ param 图 数 分 析 这 些 命令 行 参 数 。 


hmb_ reserve( PHYSICAL START, _ pa(klimit) 一 PHYSICAL _ START):; 
reserve _ kdump _ trampoline( ); 
reserve_ crashkernel( ); 


early _ reserve_ mem( ); 


上 述 程 序 将 Linux 内 核 使 用 的 空间 和 initrd 使 用 的 空间 在 LMB 中 预 留 。 


of scan_flat_ dt(early_init_dt_ scan cpus, NULL):; 
| /# End early_ init devtree */ 


这 上 段 程序 调用 early _init _ dt _ scan _ cpus 图 数 , 获 得 当前 系统 一 共有 多少 个 CPU, 同 时 设 
置 哪 一 个 CPU 作为 当前 处 理 器 系统 使 用 的 BSP(Boot Strap Processor)。 
2，probe _ machine 函数 
probe machine 图 数 在 . /arch/powrepc/kernel/setup-common.c 人 中 。 该 函数 没有 输 
人 参数 ,也 没有 返回 值 。 该 函数 的 实现 流程 十 分 简单 ， 
void probe_ machine( void) 
| 
extern struct machdep calls machine desc start: 
extern struct machdep calls ”machine desc _ end; 
probe _ machine 函数 首先 引用 外 部 变量 machine desc start 和 machine desc _ end, 
这 两 个 变量 在 vmlinux.lds.S 文件 中 定义 ,Linux 系统 编译 完成 后 这 两 个 变量 被 初始 化 。 
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DBG( Probing machine type ... \n); 


for (machine_id = machine dese start: 
machine_id 达 及 _ machine_ desc_ end; 
machine 这 ++) | 
DBG(” %s...”, machine_ id- >name); 
memepy( &ppe _ md, machine_ id, sizeof(struct machdep _ calls)); 
if (ppe _ md. probe( )) | 
DBG(” match | \n'); 
break; 
| 
DBG( Nmn ); 
上 述 程 厅 以 machdep _ calls 为 单位 扫描 machine _ desc _ start 到 machine dese end 
之 内 的 内 存 空间 ,并 将 每 一 个 单位 赋值 到 ppec _ md 结构 中 ,如 果 相 应 的 ppe _ md.probe 函数 成 
功 返 回 , 则 表示 成 功 地 找到 了 当前 处 理 器 系统 所 需要 的 ppc _ md 结构 。Linux PowerPC 首先 
使 用 宏 define _ machine, 将 基于 各 类 PowerPC 内 核 的 ppe _ md 结构 加 人 到 从 machine dese 
start 到 ”machine _ desc _ end 之 内 的 空间 中 . 
宏 defin_ machine 在 . /include/asm-powerpc/machdep.h 文件 中 ,其 源 代 码 如 下 所 示 : 


# define define machine(name) AN 
extern struct machdep _ calls mach _ # # name:; \ 
EXPORT_ SYMBOL(mach _# #name); \ 


struct machdep _ calls mach ##name machine desc = 


该 宕 machdep _ calls 类 型 的 数据 加 人 到 ,machine. desc 段 中 。 在 一 个 处 理 器 系统 中 ,只 能 
定义 - -种 machdep _ calls 类 型 的 数据 。 在 MPC8541 CDS 系统 中 ,使 用 宏 define _ machine 对 
mpc85xx _ cds 进行 初始 化 ， 


defime_ machine(mpc8Sxx _ cds) | 
. NaAme = “MPC85xx CDS ， 
.probe = mnpeg5xx _ cds _ probe, 
.setup _arch = mpc8Sxx_ cds_ setup _ arch, 
init_ IRQ = mpe8Sxx cds_ pic_ init, 
.show _ cpuinfo = mpc8Sxx _ cds_ show _ cpuinfo, 
-get _ irg = mpic_ get_ irg, 
. Testart = InPc8Sxx restart, 
.Calibrate_ decr = generic calibrate_ decr, 
- Progress = udbg _ progress, 

和 


Linux PowerPC 采用 .machine.desc 类 型 对 ppc _ md 结构 进行 赋值 的 主要 优点 是 可 以 进 
- 步 将 Linux PowerPC 中 与 处 理 器 无 关 的 代码 独立 出 来 , 当 用 户 增加 一 个 新 的 处 理 器 系统 时 ， 
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仅 需 要 修改 与 自己 系统 有 关 的 代码 ,而 不 必 对 Linux PowerPC 的 源 代 码 进 行 大 规模 修改 。 

以 MPC85XX _ CDS 系统 为 例 , 系 统 程序 员 将 此 处 理 辟 系统 语 加 到 Linux PowerPC 时 ,只 
需要 在 . /arch/powerpc/platforms 目录 中 ,添加 相应 的 目录 及 一 些 与 MPC8SXX _CDS 系统 相 
关 的 源 代码 即 可 ,而 不 需要 对 其 他 源 代码 进行 修改 。 保 持 Linux 系统 各 个 部 分 源 代码 的 独立 
是 Linux 系统 的 开发 维护 者 努力 的 目标 。 


8.2.6 MMU init 函数 


MMU _ init 函数 的 主要 作用 是 为 Linux PowerPC 建立 存储 器 虚实 映射 ,初始 化 Linux 系 
统 中 的 PTE 表 和 MMU 的 一 些 设置 ，MMU _ init 函数 没有 输入 参数 也 设 有 返回 值 ,该 函数 
的 执行 流程 如 下 所 示 : 
void _ init MMU init(void) 
| 
MMU _ setupt{ ); 


if (Imb. memory. cnt > 1) | 

imb. memory. cnt = 1; 

tmb _ analyze( ); 

printk(KERN _ WARNING “Only using first contiguous memory region ); 
| 


iotal memory = lmb_ end_of DRAM(); 
total lowmem = total_ memory: 


9 这 段 程序 首先 执行 MMU _ setup 函数 ,分 析 Boot Loader 程序 引导 Linux PowerPC 时 使 
用 的 命令 行 参数 ,有 些 应 用 可 以 在 命令 行 参 数 中 ,对 Linux PowerPC 的 存储 策 系 统 进行 
设置 , MMU setup 函数 仅 能 对 “nobats” 和 “noltlbs” 参数 进行 分 析 , 该 函数 的 源 代码 在 
. /arch/powerpc/mmAinit 32.c 文 件 中 。 

e@ 判断 当前 处 理 器 系统 中 一 共有 和 多少 个 存储 器 区 域 ,Linux PowerPC 内 核 只 使 用 第 一 段 
物理 地 址 连续 的 内 存 空间 ， 

e@ 从 LMB 系统 中 获得 当前 处 理 器 系统 第 一 段 物 理 地 址 连续 的 内 存 空间 大 小 ,并 将 此 数值 
赋值 到 全 局 变量 total memory 和 total .lowmem 中 ， 


#ifdef CONFIG FSL_BOOKE 

/# Freescale Book-E parts expect lowmem to be mapped by fixed TLB 

# entries, so we need to adjust lowmem to match the amount we can map 
#* in the fixed entries * / 

adjust _ total _ lowmem!( ): 

#endif /* CONFIG_ FSL_ BOORE */ 


如 果 当 前 处 理 器 系统 基于 E500 内 核 ,Linux PowerPC 将 会 执行 adjust _ total _ lowmem 上 


数 ,该 函数 在 . /arch/powerpc/mm 目录 的 fsl_ booke_ mmu.c 文 件 中 。 
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基于 ES00 内 核 的 PowerPC 处 理 器 要 求 Linux PowerPC 使 用 TLBI 的 Entry 对 内 核 地 址 
空间 进行 虚实 地 址 转换 。 因 为 与 使 用 TLB0 相 比 ,使 用 TLBI 实现 虚实 地 址 转换 时 ,不 需要 使 
用 存放 在 内 存 中 的 PTE 表 , 因 此 效率 较 高 ， 

Linux PowerPC 最 多 使 用 TLB1 中 的 前 3 个 Entry 进行 虚实 地 址 映射 ,对 于 E500 V1 内 
核 , 最 多 只 能 映射 768MB 地 址 空间 。 如 果 一 个 基于 32 位 PowerPC 处 理 器 系统 的 Linux 内 核 
实用 的 内 存 超过 768 MB 时 ,需要 使 用 HIMEME 管理 这 段 内 存 , 或 者 不 使 用 这 段 内 存 空间 。 
Linux PowerPC 设置 了 宏 MAX LOW MEM, 表示 低 端 内 存 的 最 大 值 ,对 于 基于 FS00 V1 内 
核 的 处 理 器 该 值 为 0x30000000, 即 768 MB 

adjust _ total _ lowmem 函数 将 当前 处 理 器 系统 中 的 内 存 分 为 三 个 部 分 。 如 果 当 前 处 理 器 
系统 的 内 存 空间 大 于 768 MB, 则 只 处 理 这 768 MB 之 内 的 数据 空间 。 然 后 将 这 段 空间 以 256 
MB 为 单位 ,分 别 存 放 到 全 局 变量 ”cam0， caml ，_ cam2 中 。 如 果 当 前 处 理 器 系统 的 内 存 
大 小 为 256 MB, 则 _ cam0=256M， caml=0， cam2=0; 如 果 当 前 处 理 器 系统 内 存 大 小 为 
760 MB, 则 _ cam0=256 M，_caml=256M，_ cam2=248 M。 


if (total_ lowmem > max_ low_ memory) 1 
total lowmem = _ max_ low_ memory; 
total_ memory = total _ lowmem:; 

Imb_ enforce_ memory _ limit(total lowmem): 
Imb_ analyzet ) ; 
| 


max_ low_ memory 是 一 个 全 局 变量 ,其 值 在 ./arch/powerpc/mm/init 32.c 文件 中 。 
对 于 MPC8541CDS 系统 ,该 值 为 0x3000-0000, 即 为 768 MB， 在 以 上 程序 中 ,如 果 当 前 处 理 器 
系统 的 内 存 空间 大 于 768 MB, 则 将 total lowmem total memorv 的 值 置 为 768 MB ,并 重新 对 
LMB 进行 整理 ， 如 果 Linux 系统 使 能 了 CONFIG_ HIMEM 参数 ,这 里 的 处 理 略 有 不 同 ,本 书 
对 此 不 做 详细 介绍 。 有 兴趣 的 读者 ,可 以 自行 阅读 这 些 源 代码 。 
7# Initialize the MIMU hardware * / 
MMU init _ hw(); 


MMU _init _ hw 函数 在 E500 内 核 中 的 实现 较为 简单 ,因为 [站 MON 
E500 内 核 不 文 持 HPTE 表 。 对 于 E500 内 核 .该 函数 的 主要 功能 是 中 
刷新 ES00 内 核 的 指令 Cache。Boot Loader 程序 将 Linux 内 核 以 数 
据 的 形式 复制 到 内 存 中 ,指令 Cache 对 这 个 复制 工作 一 无 所 知 , 因 此 二 
必须 对 E500 内 核 的 指令 Cache 进行 刷新 ,以 保证 系统 指令 Cache 与 i 
程序 的 一 致 性 。 二 

MMU _ init _ hw 函数 的 实现 流程 如 图 8-4 所 示 。 图 84 MMU _init_ hw 

至 此 ,Linux 系统 完成 了 对 物理 内 存 的 检查 ,修正 与 整理 ,随后 将 。 ”外 效 执行 流程 
使 用 mapin_ ram 卫 数 对 Linux 内 核 程序 使 用 的 物理 地 址 空间 进行 虚实 映射 。 


A¥ Map in all of RAM starting at KERNELBASE */ 
mapin _ ram!( ); 
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mapin _ ram 函数 在 . /arch/powerpc/mm/pgtable _ 32.c 文件 中 ,该 函数 没有 输入 参数 也 
没有 返回 值 。 对 于 基于 E500 内 核 的 处 理 器 ,将 使 用 TLB1 的 前 三 个 Entry 对 Linux 内 核 程 序 
使 用 的 物理 地 址 空间 进行 虚实 映射 。mapin _ ram 函数 首先 调用 mmu_ mapin _ ram 函数 ,使 
用 TLBI1 的 前 三 个 Entry 对 Linux 内 核 使 用 的 物理 地 址 空间 进行 虚实 映射 : mmu _mapin _ 
ram 函数 执行 完毕 后 ,mapin _ ram 函数 将 调用 map _ page 函数 ,使 用 TLB0 映射 剩余 的 内 存 空 


回 。 


/# Map in L/D resources * / 
if (ppe_ md. progress) 

ppe _ md. progress( MMU :setio ，0x302) ; 
if (ppe _ md. setup _ io _ mappings) 

ppe _ md. setup _ io _ mappings( ) ; 


| /# End MMU init */ 


Linux PowerPC 不 建议 用 户 使 用 io _ block _ mapping 图 数 进行 段 式 虚实 地 址 转换 ,但 是 
Linux PowerPC 依然 为 用 户 提 供 了 进行 此 操作 的 函数 。 如 果 用 户 需要 使 用 该 函数 进行 虚实 地 
址 的 转换 .首先 需要 使 用 8.2.5 节 提 到 的 宏 define machine 将 setup _ io _ mappings 参数 进行 
初始 化 ,然后 使 用 setup io” mappings 函数 .调用 相应 的 io _ block_ mapping 函数 完成 虚实 地 
址 的 转换 ， 

提醒 读者 注意 ,io block _mapping 函数 使 用 的 虚拟 地 址 空间 需要 在 VM 空间 之 内 ,系统 
程序 员 需 要 精确 计算 出 所 有 io_block _mapping 函数 使 用 的 边界 ,以 避免 Linux 系统 虚拟 地 址 
空间 的 浪费 。 对 于 32 位 处 理 器 ,Linux 系统 的 1GB 内 核 空间 已 经 显得 捉襟见肘 。Linux 系统 
引导 程序 从 MMU _ init 函数 返回 时 ,将 调用 start _ kernel 函数 。 

A¥* Letsmoveon */ 

lis r4 ,start _ kermel(@h 

ori r4,r4,start_ kernel(@l 

lis r3,MSR KERNFL@h 

ori 13,73.MSR KERNEL@GI! 

mtspr SPRN SRKRO,r4 

mtspr SPRN SRRI,r3 

tf /x# change conrexr and jump to start_ kernel */ 


这 段 程序 使 用 rfi 指令 跳 转 到 start _ kernel 函数 开始 执行 。 
8.3 Linux 内 核 的 二 次 引导 


Linux 内 核 的 一 次 引导 所 完成 的 主要 工作 与 当前 处 理 器 系统 密切 相关 ,包括 对 一 些 底层 
硬件 进行 最 基本 的 初始 化 操作 。 而 二 次 引导 中 的 主要 工作 与 处 理 器 类 型 基本 无 关 。 
Linux 系统 在 进入 start ”kernl 函数 运行 之 前 ,已 经 为 该 函数 的 执行 建立 了 一 个 基本 环境 
和 必要 的 准备 ,并 由 二 次 引导 程序 完成 对 Linux 内 核 的 初始 化 。 与 一 次 引导 程序 相同 ,二 次 引 
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导 程序 也 是 被 进程 0 调用 的 。 Linux 内 核 的 二 次 引导 程序 基本 上 是 一 个 顺序 执行 的 流水 账 。 
本 书 将 按照 程序 的 执行 顺序 对 一 些 重要 的 函数 进行 说 明 。 


8.3.1 start kernel 有 少数 
starl _ kernel 胃 数 在 .initA/main.ce 文件 中 。 其 源 代码 如 下 所 示 : 


asmlinkage void _ init start _ kernel(void) 
| 
char * command line; 
extern struct kernel param start param| |, stop__ param| |; 


local irq_ disable( ); 
early boot _ irgs _ off(); 


lock _ kernel( ); 

boot_ cpu _ init(); 

page_ address init(); 
printk(KRERN _ NOTICE):; 


9 start kernel 国 数 首先 调用 lock ”kernel 销 数 将 Linux 内 核 锁 定 。Linux 2.4 的 初期 版 
本 使 用 lock ”kernel 函数 ,实现 内 核 抢 占 和 SMP 对 Linux 内 核 的 互 斥 。lock _ kernel 函 
数 使 用 BKL(Big Kernel Lock) 将 内 核 锁 定 ,在 该 锁 之 后 执行 的 所 有 Linux 内 核 代码 都 
不 能 被 其 他 处 理 器 强占 ,直到 使 用 unlock Kernel 国 数 释 放 BKL. BKL 与 Semaphore 
和 Spin Lock 有 所 不 同 ,BKL 不 是 对 临界 数据 的 访问 进行 保护 ,而 是 对 Linux 内 核 进行 
保护 ,BKL 的 效率 非常 低 。 

和 调用 early boot irqs_off 国 数 将 变量 early boot irgs enabled 和 置 为 0, 表 示 当 前 系统 
茶 止 外 部 中 上 断 ， 

和 Linux PowerPC 在 执行 完 lock kernel 国 数 之 前 还 调用 了 local _ irg _ disable 国 数 ,这 使 
得 Linux 内 核 在 引导 过 程 中 不 会 被 外 部 中 断 干扰 ,也 不 可 能 被 其 他 进程 抢占 。 

@ start kernel 函数 调用 boot cpu _init 函数 确定 SMP 系统 中 的 BSP, 即 进程 0 使 用 的 
CPUs 

@ 调用 page address _ init 图 数 , 将 HIMEM 使 用 的 空间 组 织 在 一 起 ,page_ address _ init 
晴 数 只 有 在 Linux 系统 使 能 HIMEM 后 才 有 意义 - 

se 调用 printk(linux _banner) 国 数 将 Linux banner 变量 输出 到 控制 台 。Linux _ banner 
变量 在 .vinityversion.c 文件 中 。 


setup _archt &command _ line):; 


setup arch 晴 数 是 start ”kernel 中 执行 的 重要 图 数 ， 该 图 数 的 主要 作用 是 对 内 存 系统 进 
行 基 本 初始 化 ,之 后 调用 ppc_md 结构 的 setup _ arch 函数 对 当前 处 理 器 系统 进行 一 些 基 本 的 
初始 化 ,该 函数 在 . /arch/powerpc/kemel/setup 32.c 文 件 中 。 
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/A WarninE，IO base is not yet inited # / 
void _ init setup_ arch(char * * cmdline p) 
| 

# cmdline_p = cmd _ line; 


/¥ so udelay does something sensible, assume <= 1000 bogomips */ 
loops _ per _ jiffy = SO0000000 / HZ: 


unflarren _ device _ tree( ); 
check _ for_ initrd(); 


if (ppe _ md.init _ early) 
ppe _ md. init _ early( ); 


find_ legacy _ serial _ ports{ ); 
smp _ setup _ cpu _ maps( ); 


/% Register early console ¥ / 
register _ early_ udbg_ console( ); 


xmon _ setup( ); 


在 上 述 代 码 中 ,setup _ arch 函数 首先 设置 loops _ per _jiffy 参数 ,然后 对 OF tree 和 initrd 
进行 检查 ,最 后 对 串 行 问 口 和 监视 口 进 行 检查 和 设置 。 在 Linux 系统 中 , 捉 行 端口 和 监视 口 经 
常 被 用 作 调 试 端口 ,其 中 串 行 端口 最 为 常用 。 


i (cpu_ has_ feature(CPU _ FTR _SPLIT_ ID_ CACHE)) | 
dcache_ bsize = cur_ cpu _ spec-> dcache _ bsize; 
icache _ bsize = cur cpu spec- >icache _ bsize; 
ucache _ bsize = 0; 
| else 
ucache _ bsize = dcache bsize = icache _ bsize 
= cur_ cpu_ spec- > dcache _ bsize; 
A”¥ reboot on panic ¥*/ 
panic __ timeout = 180; 


init _ mm. start _ code = PAGE _ OFFSET: 
init_ mm,end_code = (unsigned long) _ etext; 
init mm.end data = (unsigned long) edata; 
int _ mm. brk = klimit; 
这 段 程 序 主要 完成 以 下 几 个 功能 : 
8 设置 指令 与 数据 Cache 的 行 长度 。 其 中 dcache bsize 和 icahe _ bsize 分 别 表示 Ll 数据 
Cache 和 指令 Cache 的 大 小 。 当 处 理 器 将 指令 Cache 和 数据 Cache 进行 统一 编 址 时 ,u- 
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cache _ bsize 变量 用 来 Cache 的 总 大 小 。 在 基于 E500 内 核 的 Linux PowerPC 中 ,dcache 
_ bsize 和 icache _bsize 都 为 32 ,表示 L1 数据 和 指令 Cache 的 大 小 为 32KB. 而 ucache 
bsize 变量 为 0。 
9 | 着 后 将 panic timeout 变量 设置 为 180。Linux 系统 进入 panic 时 ,180 秒 钟 后 将 重新 启 
动 。 
@ 这 段 程序 最 后 设置 进程 0 的 mm _ struct 结构 。 
A* set up the bootmem stuff with available memory * / 
do _ init _ bootmem( ); 
if ( ppe _ md. progress ) ppc _ md. progress( setup _ arch: bootmem’, 0x3eab); 


这 段 程序 对 Boot Memory 进行 初始 化 。 该 困 数 的 许 细 摘 述 见 本 书 的 7.2.4 市 。 


ppe_ md. setup _ arch( ); 
if { ppe _ md. progress ) ppe _ md. progress( arch: exit , Ox3eab); 


调用 ppc md.setup _ arch 困 数 对 具体 的 处 理 需 系统 进行 初始 化 。 不 同 的 处 理 硕 系统 使 
用 不 同 的 ppc md.setup arch 函数 ,ppc _md.setup _ arch 国 数 在 probe _machine 国 数 中 设 
置 ， 对 于 MPC8541CDS 系统 ,ppc _ md.setup _ arch 图 数 等 效 于 mpc8S$xx _cds _ setup _ arch 
函数 ， 

mpc8Sxx cds ”setup arch 图 数 在 ./arch/powerpc/platforms/85xx/mpc85xx _ cds.c 文 
件 中 ,该 函数 主要 完成 以 下 功能 : 

(1) 根据 当前 处 理 器 的 频率 ,重新 配置 loops _per _jiffy 参数 . 

(2) 添加 PCI 总 线 控制 器 。 

(3) 设置 ROOT _DEV 参数 ,确定 根 文件 系统 。 

paging _ init(); 
| A/#* End setup_arch */ 

setup _ arch 羡 数 最 后 调用 paging _ init 图 数 , 对 当前 处 理 磊 系统 的 Linux 内 核 的 有 效 地 址 
空间 进行 全 面 的 初始 化 ,paging _ init 函数 的 详细 说 明 见 本 书 的 7.2.2 市 。start _ kernel 函数 
从 setup _ arch 函数 返回 后 将 执行 以 下 代码 : 


unwind _ setup( );} 
setup _ per _ cpu _areas( ); 
smp “prepare boot_ cpu{); /3# arch-specific boot— cpu hooks * / 

@ 在 Linux PowerPC 中 ,unwind setup 国 数 是 一 个 空 国 数 。 

@ 调用 serup _ per _ cpu _ areas 图 数 。 如 果 处 理 器 不 使 用 Linux SMP,setup _per _cpu _ 
areas 图 数 是 一 个 空 图 数 ,否则 setup _ per cpu areas 图 数 将 初始 化 每 个 CPU 的 
.data. percpu 数据 段 , 之 后 调用 alloc “bootmem 函数 为 每 个 CPU 确定 内 存 的 大 小 。 在 
Linux SMP 中 ,每 个 CPU 都 有 自己 的 专用 数据 段 ,该 专用 数据 段 为 .data.percpu, 该 数 
据 段 在 . /archypowerpcykernelyvmlinux.lds.S 文件 中 定义 。Linux PowerPC 使 用 宏 per 

cpu 访问 这 些 属于 不 同 CPU 的 专用 数据 ,使 用 宏 DEFINE _ PER _ CPU 将 数据 放 到 
CPU 的 专用 数据 段 .data.percpu 中 。 
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9 调用 smp _ prepare _boot _cpu 函数 ,设置 当前 BSP 有 效 , 即 当前 BSP 使 用 的 CPU 处 于 
活动 状态 ,然后 设置 current _set 数组 的 boot _cpuid 为 当前 进程 描述 符 ， smp _ prepare 
_ boot _ cpu 国 数 在 . /arch/powerpc/kernel/smp.c 文件 中 。 


A 
* Set up the scheduler prior starting any interrupts (such as the 
# timer interrupt). Full topology setup happens at smp _ init() 
# time 一 but meanwhile we still have a functioning scheduler. 
pd 
sched _ init( ); 


这 上段 程序 调用 sched _ init 图 数 初 始 化 进程 运行 队列 rq。 在 Linux SMP 系统 中 ,每 一 个 

CPU 都 有 自己 的 进程 运行 队列 。 
preempt _ disable( ); 
build _ all_ zonelists( ); 
page_ alloc init( ); 

这 有 段 代码 首先 调用 preempt _ disable 函数 禁止 抢占 。 之 后 调用 build all zonelists 函数 。 
孩 图 数 调 用 “build__all _ zonelists 函数 初始 化 每 个 CPU 的 存储 器 节点 ,并 根据 Linux Power- 
PC 提供 的 数据 区 域 ,如 ZONE DMA 和 ZONE _HIMEM, 划分 内 存 空间 。 这 部 分 初始 化 也 
被 称 为 存储 器 节点 的 初始 化 。 

最 后 幸 用 page _ alloc _ init 国 数 ,为 系统 设置 一 个 page _alloc _cpu _ notify 回调 函数 。 该 
卫 数 用 来 实现 CPU 的 关闭 与 使 能 。 一 个 MPP 结构 的 处 理 器 系统 或 者 大 型 服务 器 含有 几 十 到 
几 于 个 CPU, 这些 处 理 融 系 统 有 时 需要 临时 关闭 或 者 打开 某 些 CPU, 此 时 Linux 系统 需要 调 
用 page_alloc _ cpu _ notify 函数 增加 或 者 移出 某 些 CPUI， 


printktKERN NOTICE "Kernel command line: Ws\n, saved command line); 
parse _ early_ paramt ) ; 
parse _args( Booting kernel’, command line, start param， 

__Stop_ paramn 一 _ start __ param, 

名 unlknown _ bootoption); 


这 自 国 数 使 用 parse _ early _ param 和 parse _ args 国 数 解析 Boot Loader 传递 给 Linux 内 
檀 的 一 些 人 参数。 


sort main extable( ) ; 
trap _ init( ); 
reu _ init{ ); 
这 段 冰 数 自 先 使 用 sort_ main _ extable 函数 ,对 异常 调用 表 进 行 重 新 排序 。Linux 系统 将 
异 篆 调用 表 存 放 在 _ ex _ table 段 中 。 对 于 Linux PowerPC ,trap _ init 是 一 个 空 函数 ,该 函数 
对 Linux Pentium 有 意义 ，rcu _init 函数 初始 化 Linux PowerPC 的 RCU 部 件 。 本 书 由 于 篇 幅 
问题 无 法 深入 讨论 Linux 系统 中 的 RCU。 
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init _IRQ( ); 
pidhash _init( ) 
init _ timers( ) ; 
hrtimers init( ); 
softirg _ init( ); 
@ 这 段 程序 调用 init _IRQ 函数 对 中 断 系 统 进 行 初始 化 ,init _ [RQ 函数 的 详细 说 明 见 本 
书 的 6.2.3 节 。 
@ 调用 pidhash _init 函数 对 进程 PID 描述 符 的 hash 表 进 行 初始 化 。PID 描述 符 的 详细 说 
明 见 本 书 的 5.1.1 节 。 
旬 调用 init timers 力 数 初始 化 Linux 系统 使 用 的 定时 器 。 
@ 调用 hrtimes _init 函数 初始 化 高 精度 (high resolution) 定 时 器 ,与 Linux 系统 提供 的 标 
准 定 时 名 相 比 ,该 定时 盘 的 精度 更 局 
@ 调用 softirq _ init 函数 对 Linux 系统 的 软件 中 断 进 行 初 始 化 ,该 函数 的 详细 摘 述 见 本 书 
的 6.4.4 节 


timekeeping _ init( ); 
time_ init(); 
profile init( ); 
Fl ee led( 
printk( start kernel( ): bug: interrupts were enabled early \ 0 ); 
early _ boot _ irgs _ on(); 
local _ irg _ enable( ); 


这 有 段 程序 的 执行 流程 如 下 : 

@ 调用 timekeeping _init 函数 初始 化 Linux 系统 的 外 部 RTC, 即 timekeeping 希 件 。 

@ 调用 time _ init 函数 初始 化 Linux 系统 的 定时 器 。Linux PowerPC 可 以 使 用 外 部 RTC 
作为 系统 的 定时 器 也 可 以 使 用 TB 寄存 器 。 

@ 调用 profile _init 函数 初始 化 Linux 系统 的 profile 功能 ,本 书 在 5.4.3 节 中 简单 介绍 
了 一 些 有 关 profile 的 知识 - 

@ 调用 early _boot _irqs _ on 函数 将 全 局 变量 early _ boot _irqs _ enabled 阜 为 1 表示 当前 


系统 使 能 了 外 部 中 断 。 
@ 调用 local irq _ enable 图 数 使 能 外 部 中 断 。 
A 


* HACK ALERT! This is early. We re enabling the console before 
* we ve done PCI setups etc，and console init() must be aware of 
# this. But we do want output early, in case something goes wrong. 
站 


console init( ); 
调用 console _ init 函数 初始 化 控制 器 console, console 是 Linux 系统 用 于 输出 一 些 监控 信 


息 的 设备 ,Linux 系统 一 般 使 用 串口 或 者 监视 器 作为 console 设备 。 
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vis_caches_ init early(); 
cpuset init_ early{ ); 
mem _ init( ) ; 
kmem _ cache _ init( ) ; 
setup_ per _ cpu_ pageset( ); 


9 初始 化 VFS 系统 使 用 的 dentry 和 inode 专用 SLAB 描述 符 。Linux 系统 使 用 dentry 结 
构 保 存 有 关 文 件 目录 的 信息 ,使 用 inode 结构 保存 有 关 文 件 的 信息 。 

@ 调用 mem _init 函数 初始 化 所 有 页 表 描 述 符 ,并 初始 化 Buddy System。 本 书 在 7.2.3 节 
中 简单 介绍 了 mem _ init 函数 。 

@ 说 用 kmem _ cache _ init 国 数 初 始 化 Linux 系统 的 Slab 分 配器 。 本 书 在 7.3.2 节 中 详 
细 介 绍 了 kmem _ cache _init 函数 的 详细 实现 

@ 初始 化 当前 CPU, 即 BSP 的 每 一 个 数据 区 域 ,如 ZONE _ DMA 和 ZONE _ HIMEM 使 
用 的 per _ cpu _ pageset 缓冲 ,有 关 per _cpu pageset 缓冲 的 详细 说 明 见 本 书 的 7.2.3 
hs 

numa_ policy _ init( ); 
if (late_ time_ init) 
late _ time _ init( ); 
calibrate _ delay( ); 
pidmap _ init(); 
pgtable_ cache _ init( ); 

8 调用 numa _ policy _ init 图 数 创 建 numa policy 和 shared _ policy _ node 使 用 的 专用 
Cache 描述 符 。 

@ 调用 calibrate _ delay 图 数 。calibrate _ delay 函数 可 以 计算 出 ,一 个 CPU 在 一 秒 钟 内 执 
行 了 多 少 次 “一 个 极 短 的 循环 ” ,并 根据 计算 出 来 的 值得 到 BogoMIPS 值 ,其 中 Bogo 是 
Bogus( 伪 ) 的 意思 。 通 过 BogoMIPS 的 值 ,可 以 估算 出 当前 处 理 器 的 性 能 ， 该 程序 由 
Linus Torvalds 编写 ,BogoMIPS 可 以 衡量 在 Linux 系统 中 , 处理 器 的 运算 速度 。Linux 
系统 用 于 估算 当前 处 理 器 运算 速度 的 算法 比较 简单 ,BogoMIPS 的 值 可 以 部 分 反映 当 
前 处 理 器 的 运行 速度 。 当 前 处 理 器 的 BogoMIPS ,在 /proc/cpuinfo 文件 的 最 后 一 行 中 。 

@ 调用 pidmap _ init 果 数 ,建立 pid 结构 使 用 的 专用 Cache 描述 符 表 pid _ cachep。 

@ 对 于 64 位 的 PowerPC 处 理 器 ,pgtable _cache _init 函数 建立 PTE 表 和 PMD 表 使 用 的 
专用 Cache 描述 符 ;32 位 的 PowerPC 处 理 器 使 用 Buddy System 创建 PTE 表 和 PMD 
表 。 因 此 对 于 32 位 Linux 系统 ,该 图 数 为 空 


fork _init(num _ physpages); 
proc_ caches _ init( ); 

buffer _ init( ); 

unnamed _ dev _ init(); 

key init( ); 
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security _init( ) ; 

vis_ caches_init(num _ physpages); 
radix _ tree_ init( ); 

signals _ init( ); 

@ 调用 fork _init 函数 创建 task struct 结构 使 用 的 专用 Cache 摘 述 符 task _ struct _ 
cachep; 确 定 当 前 Linux 系统 所 能 容纳 的 最 大 进程 数 max _ threads。 

@ 调用 proc _ caches _init 函数 使 用 的 专用 Cache 描述 符 sighand _ cachep signal _ cachep、 
files _ cachep\fs_ cachep.vm _area_ cachep 和 mm _ cachep. 

@ 调用 buffer init 函数 创建 buffer _ head 结构 的 专用 Cache 摘 述 符 bh _ cachep, Linux 的 
文件 系统 使 用 buffer head 结构 保存 来 自 外 部 设备 的 数据 。 

e@ 调用 key _init 函数 和 security _ init 函数 初始 化 与 信息 安全 有 关 的 数据 结构 。 

@ 调用 vfs_caches init 函数 创建 专用 Cache 摘 述 符 names _ cachep 和 fp - cachep ,之 后 
调用 dcache _init ,inode __init ,files _initmnt _init ,bdev _ cache _ init 和 chrdev _ init 辑 
数 对 Linux 文件 系统 的 各 个 子 系统 进行 初 她 化 。 

@ 调用 radix tree init 函数 初始 化 Linux 系统 使 用 的 Radix Tree。Radix Tree 是 一 种 搜 
索 树 ,Linux 系统 可 以 使 用 Radix Tree 结构 加 快 数据 的 检索 速度 。 

@ 调用 signals _init 函数 初始 化 Linux 系统 的 信号 机 制 。 


Vs# rootfs populating might need page-writeback */ 
page_ writeback _ init( ); 


ifdef CONFIG_ PROC _ FS 
proc root _ init( ); 
# endif 
二 调用 page_ writeback _ init 函数 初始 化 文件 系统 的 回调 函数 。 在 Linux 文件 系统 中 有 许多 
“ 脏 " 页 ,这些 在 内 存 中 的 “ 脏 ” 页 不 会 立即 与 文件 系统 进行 同步 。 只 有 在 内 存 中 的 “ 脏 " 页 
到 达 一 定 的 数量 时 ,Linux 系统 才 会 使 用 回调 函数 将 这 些 “ 脏 "页 与 文件 系统 同步 。 
@ 调用 proc _root _ init 函数 创建 proc 根 文件 系统 。 


acpi early init(); /* before LAPIC and SMP init */ 


/x Do the rest non— init ed, we re now alive * / 
rest _ init( ); 


| A/* End start kernel 
调用 acpi _ early _ init 国 数 初始 化 Linux 系统 的 高 级 配置 与 电源 接口 ACPI( Advanced 


Configuration and Power Interface)。ACPI 是 英特尔 ,微软 和 东芝 共同 开发 的 一 种 电源 管理 标 
准 , 可 实现 以 下 功能 : 


e 用 户 设置 外 部 设备 开关 的 时 间 。 
e 指定 计算 机 在 低 电 压 的 情况 下 进入 低 功 耗 状态 ,以 保证 重要 的 应 用 程序 运行 。 
e 操作 系统 可 以 在 应 用 程序 对 效率 要 求 不 高 的 情况 下 降低 时 钟 频率 . 
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9 操作 系统 根据 外 设 和 主板 的 具体 需求 分 配 能 源 . 
se 在 无 人 使 用 计算 机 时 使 计算 机 进 人 休 眼 状态 ,但 保证 打开 一 些 基本 通信 设备 ， 
e 管理 插 即 用 设备 . 
acpi _ early _ init 国 数 返回 后 将 执行 rest _ init 函数 ,rest _ init 函数 没有 输入 参数 也 没有 返 
回信 ,该 函数 的 源 代码 如 下 所 示 : 
static void noinline rest _ init( void ) 
__ Teleases(kernel lock) 
| 
kernel _ thread(init, NULL, CLONE _ FS | CLONE SIGHAND); 
numa default _ policy( ); 
unlock _ kernel( ); 


人 
# The boot idle thread must execute schedule( ) 
* at least one to get things moving: 
*/ 
preempt _ enable _ no _ resched( ); 
schedule( ); 
preempt _ disable( ); 


7# Call into cpu_ idle with preempt disabled * / 
cpu _ idle( ); 
| 

@ rest _ init 国 数 使 用 kernel .thread 函数 创建 新 的 核心 进程 init。 此 时 在 start ”kernel 函 
效 中 使 用 的 BKL 并 没有 释放 ,而 且 内 核 还 禁止 抢占 ,因此 核心 进程 init 不 会 立即 执行 。 

9 闭 用 unlock _ kernel 晃 数 释放 start _ kernel 函数 释放 BKL 

@ 六 用 preempt enable no _ resched 函数 , 介 许 内 核 抢 占 

9 调用 schedule 函数 切换 当前 进程 。 在 执行 此 schedule 函数 之 前 ,Linux 系统 只 有 两 个 进 
程 . 印 初始 化 进程 0 和 核心 进程 init, 其 中 核心 init 进程 刚刚 被 rest _ init 函数 创建 。 因 
此 圭 用 schedule 函数 后 ,核心 进程 init 将 会 继续 运行 。 

e 当 Linux 系统 的 进程 运行 队列 中 没有 活动 进程 时 ,调度 程序 将 执行 进程 0。 此 时 进程 0 
将 首先 禁止 内 核 抢占 ,然后 执行 cpu _ idle 函数 。 注 意 在 idle 进程 放弃 CPU 时 将 会 重新 
使 能 内 核 抢 占 。cpu idle 函数 在 . /arch/ypowerpcykernelvidle.c 文件 中 ,该 函数 包含 idle 
进程 的 程序 体 .初始 化 进程 0 完成 Linux 系统 的 初始 化 后 ,将 转化 为 idle 进程 . 

8.3.2 核心 进程 init 

核心 进程 init 主要 有 以 下 功能 : 

@ | 守 SMP 处 理 器 中 的 其 他 AP. 

@ 周 用 do _ basic _ setup 函数 将 Linux 系统 的 其 他 模块 初始 化 。 

9 更 换 核心 进程 init 为 普通 进程 init, 之 后 进行 Linux 系统 的 二 次 引导 , 即 对 Linux 系统 应 
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用 程序 的 引导 。 


static int init( void ¥ unused) 
| 
lock kernel( ); 
并 
# nit can run on any cpu. 
A 
set _ cpus _ allowed(current, CPU MASK ALL); 


init_ pid _ ns. child _ reaper = current; 
cad _pid = task _ pid(current); 


smp _ prepare_ cpus(max _ cpus); 
do_ pre_ smp_ initcalls( ) ; 


smp _ init( ); 


sched _ init_ smp(); 


cpuset _ init_ smp( ); 

在 这 段 程序 中 ,最 重要 的 函数 是 smp _ init 困 数 ,smp _ init 函数 引导 SMP 系统 中 的 AP。 
该 函数 将 调用 cpu _up->_cpu_up-> cpu_up->kick _ cpu-> secondary start 函数 
将 AP 逐个 进行 引导 。 在 _ secondary _ start 函数 中 ,AP 将 调用 cpu _ set 函数 将 CPU 加 入 到 
cpu _ online _ map 变量 中 ,用 以 向 BSP 通知 ,该 CPU 已 经 被 激活 。 

需要 提醒 读者 注意 ,在 AP 中 .不 再 调用 start ”kernel 函数 对 AP 使 用 的 Linux 子 系统 进 
行 初 始 化 ,而 是 直接 调用 “secondary _ start 国 数 对 AP 进行 一 些 基 本 的 初始 化 。 在 SMP 处 理 
证 中 ,AP 与 BSP 共享 同一 个 内 存 空 间 ,因此 在 Linux SMP 中 只 需要 BSP 对 Linux 子 系统 进行 
初始 化 ,AP 将 享受 BSP 的 劳动 成 果 。 

do_ basic _setup( ); 


do _ basic _setup 鸭 数 将 调用 do _ initcalls 函数 加 载 Linux 系统 中 的 各 个 模块 ,该 国 数 最 重 
要 的 源 代码 如 下 所 示 : 


static void _ init do _ initcalls( void) 
| 

initcall 二 * call; 

int count = preempt _ count(); 


for {call = _ initcall start; call < _ initcall end: call++ ) | 
result = (¥call)(); 


| 
| /x End do initcalls */ 
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上 述 程序 将 逐个 执行 在 _ initcall _start 和 initcal] _ end 之 间 的 函数 。 initeall _ start 
和 __ initcall _end 在 . /arch/powerpc/kernel/vmlinux.lds.S 文件 中 定义 ,Linux 系统 将 一 些 需 
要 在 系统 局 动 时 加 载 模块 的 地 址 存放 在 initcall start 和 initcall end 之 间 , 即 Linux 内 核 
ELE 文件 的 .initcall.init 段 中 。 

Linux 系统 使 用 两 种 方式 加 载 系统 中 的 模块 ， 

e 主人 并 加 载 ,即将 所 有 模块 的 程序 编译 到 Linux 内 核 中 ,由 do _ initcalls 函数 加 载 ， 

9 动态 加 载 , 即 在 Linux 系统 启动 之 后 由 load _ module 函数 进行 加 载 。 

本 书 重 点 介绍 模块 的 静态 加 载 方法 。Linux 系统 静态 加 载 模块 的 方法 十 分 简单 ,只 需要 
再 用 do _ initcalls 函数 即 可 实现 。 但 是 程序 员 需 要 了 解 Linux 系统 如 何 将 模块 的 程序 地 址 放 
人 ,initcall.init 段 中 。Linux 系统 定义 了 一 系列 宏 , 将 代码 加 人 到 __ initcall _ start 和 initcall 
_end 之 间 。 


# define pure _initcall(fn) _define_initeal( 0 ,fn,1) 

# define core _initcall( fn) _ define_ initcall( 1 ,fn,1) 
#define core _ initcall _ sync( fn) define initcall( ls ,fn, 1s) 
# define postcore _ initcall( fn) _ define_ initcall( 2 ,fn,2) 
# define postcore _ initcall _ syne(fn) __ define _ initcall( 2s ,fn,2s) 
# define arch initcall( fn) _ define_ initcall(”3" ,fn,3) 

# define arch _ initcall _ sync( fn) _ define_ initeall( 3s ,fn,3s) 
# define subsys _ initcall(fn) _ define_ initcall("4’ ,fn,4) 

# define subsys _initcall sync(f{n) _ define_ initcall( 4s ,fn,4s) 
# define fs _ initcall(fn) _ define_ initcall(”5S” ,fn,5) 
#define fs_ initcall_ syne({fn) _ define_ initcall( 5s', fn, 5s) 
# define rootfs _ initcall( fn) _ define_ initcall( rootfs , fn, rootfs) 
# define device _ initcall( fn) _ define_ initcall( 6 fn,6) 

# define device _ initcall _ sync( fn) _ define_ initcall( "6s ,fn,6s) 
# define late _ initcall( fn) _ define_ initcall( 7 ,fn,7) 

# define late _ initcall _ sync( fn) _ define initeall( 7s ,fn,7s) 


上 述 代 码 使 用 宏 。 define _ initcall 将 Linux 系统 中 需要 静态 加 载 的 模块 添加 到 
.initcall .init 段 中 。 我 们 可 以 从 以 上 程序 发 现在 Linux 系统 中 ,模块 分 为 14 个 等 级 ,并 使 用 1 
-7,1s 一 7s 进行 编号 。 其 中 ,编号 小 的 模块 将 放 入 .initcall .init 段 靠 前 的 位 置 ,这 也 保证 了 编 
写 较 小 的 模块 将 被 率先 执行 。 对 此 有 兴趣 的 读者 ,可 以 阅读 Linux 源 代码 以 了 解 Linux 系统 
如 何 对 这 些 模块 进行 分 类 。 

在 这 些 宏 定 义 中 ,读者 最 熟悉 的 应 该 是 宏 device _ initcall。 编 写 过 Linux 系统 设备 驱动 程 
序 的 读者 应 该 使 用 过 module _ init 函数 。 如 果 Linux 系统 静态 加 载 模块 时 ,module _ init 函数 
等 效 于 宏 initcall, 宏 initcall 等 效 于 宏 device _ initcall。 

这 些 宏 的 代码 在 . /include/Ainux/init.h 文件 中 。Linux 系统 执行 完 do _ basic 。setup 函数 
后 ,将 继续 执行 以 下 代码 : 


free_ initmem( ); 
unlock kernel( ); 
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@ 调用 free _ initmem 函数 释放 在 init _begin 和 _ init _end 之 间 的 所 有 内 存 空 间 . 即 所 
有 市 有 __init 前 缀 图 数 使 用 的 内 存 空间 。 
@ 调用 unlock kernel 国 数 释 放 BKL. 


让 (sys open((const char User * )“/devycoonsole ,DOD_ RDWR, 0) < 0) 
printk(KERN _ WARNING Warning: unable to open an initial console \ n ); 


(void) sys _ dup(0); 
(void) sys_ dup(0); 


这 上段 程序 使 用 /dev/console 作为 Linux 系统 的 标准 输入 , /dev/console 为 Linux 系统 的 文 
件 描述 符 0, 之 后 使 用 sys _ dup 系统 调用 将 文件 描述 符 0 复制 到 文件 摘 述 符 1 和 2 中。 

在 Linux 系统 中 ,文件 描述 符 0、1 和 2 分 别 与 标准 输入、 标准 输出 和 标准 错误 输出 设备 对 
应 。 因 此 在 这 段 程序 执行 完毕 后 ,系统 的 标准 输入 标准 输出 和 标准 错误 输出 设备 都 被 设置 为 


/devvconsole。 


ran _init _process( /sbin/init ); 
run _init _ process(” /etc/init’); 
run_ init _brocess( /bin/init ); 
rn_init_ process( /bin/sh ) ; 


panic( No init found, Try passing init= option to kernel.); 
| vs End init */ 


init 函数 最 后 将 调用 run _ init _ process -> kernel _execve 一 > sys _ execve 图 数 改 变 核 心 进 
程 init 的 正文 段 ,将 核心 进程 init 转换 为 用 户 进程 init。 之 后 用 户 进程 init 将 根据 /etc/inittab 
中 提供 的 信息 完成 应 用 程序 的 初始 化 调用 。 本 书 将 不 介绍 普通 进程 init 的 执行 流程 。 
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